西安SEO优化推广多少钱？

月度服务费约2000-8000元，按效果付费可依排名结算。

网站优化多久见效？

新站3-6个月，老站1-3个月可见排名提升。

多模态AI到底能做什么？从GPT-4o看懂一张发票说起

王尘宇 AI百科 2026-06-23 10:08:49 9

上周有个做财务的朋友给我发了张餐厅小票，问能不能自动提取金额和日期。我用GPT-4o试了一下，三秒出结果，金额、税号、开票日期全对。她说"这不就是OCR吗？"我说不完全是——OCR只能识别文字，多模态AI能理解这张图是什么场景、金额合不合理、甚至能判断这个价格是不是偏高了。

这篇文章就用几个真实场景，把多模态AI到底是什么、现在能做到什么程度跟你聊清楚。

什么叫"多模态"

传统的AI模型是"单模态"的。最早的GPT（GPT-2、GPT-3）只能处理文字——你给它一段话，它回你一段话，中间没有任何其他信息形式。后来有了能生成图片的DALL-E、能理解图片的CLIP，但这些模型各管各的，文字模型不懂图片，图片模型不懂文字。

"多模态"的意思是，同一个模型能理解多种信息形式——你把文字、图片、音频、视频混在一起扔给它，它能全部理解并给出回答。就像人看一篇文章，不仅看字，还看图、看排版、看配色，综合判断整篇内容在说什么。

2024年是个分水岭。OpenAI在5月发布了GPT-4o（那个o是omni，全能的意思），谷歌推出了Gemini 1.5 Flash，国内的通义千问VL和智谱GLM-4V也陆续上线。到2025年底，多模态已经从"实验室Demo"变成了可以日常用的工具。

现在多模态AI能做什么

说几个我实际用过的场景：

第一，读图和读表。上传一张Excel截图或者手写的会议纪要照片，模型能直接提取数据、做总结。我试过拿一张模糊的报销单照片扔给Gemini 1.5 Pro，它连手写的备注都认出来了。这比传统OCR强的地方是它能理解上下文——比如它知道表格里的"合计"应该等于上面各项加起来，如果不对它会提醒你。

第二，分析图表和报告。把一份PDF的财务报告截图发给Claude（Claude 3.5 Sonnet支持图像输入），它能分析出收入增长趋势、哪个产品线在拖后腿、跟去年同期比有什么变化。以前需要财务分析师做的事，现在AI可以先给你一个初筛。

第三，视频理解。Gemini 1.5 Pro支持上传最长1小时的视频，它能总结视频讲了什么、找到某个时间点说的某句话。我传过一个40分钟的线上培训录像，它准确找到了"Q&A环节"是从第32分钟开始的。这个功能对会议记录、培训内容管理非常实用。