多模态AI到底能做什么?从GPT-4o看懂一张发票说起

王尘宇 AI百科 9

上周有个做财务的朋友给我发了张餐厅小票,问能不能自动提取金额和日期。我用GPT-4o试了一下,三秒出结果,金额、税号、开票日期全对。她说"这不就是OCR吗?"我说不完全是——OCR只能识别文字,多模态AI能理解这张图是什么场景、金额合不合理、甚至能判断这个价格是不是偏高了。

这篇文章就用几个真实场景,把多模态AI到底是什么、现在能做到什么程度跟你聊清楚。

什么叫"多模态"

传统的AI模型是"单模态"的。最早的GPT(GPT-2、GPT-3)只能处理文字——你给它一段话,它回你一段话,中间没有任何其他信息形式。后来有了能生成图片的DALL-E、能理解图片的CLIP,但这些模型各管各的,文字模型不懂图片,图片模型不懂文字。

"多模态"的意思是,同一个模型能理解多种信息形式——你把文字、图片、音频、视频混在一起扔给它,它能全部理解并给出回答。就像人看一篇文章,不仅看字,还看图、看排版、看配色,综合判断整篇内容在说什么。

2024年是个分水岭。OpenAI在5月发布了GPT-4o(那个o是omni,全能的意思),谷歌推出了Gemini 1.5 Flash,国内的通义千问VL和智谱GLM-4V也陆续上线。到2025年底,多模态已经从"实验室Demo"变成了可以日常用的工具。

现在多模态AI能做什么

说几个我实际用过的场景:

第一,读图和读表。上传一张Excel截图或者手写的会议纪要照片,模型能直接提取数据、做总结。我试过拿一张模糊的报销单照片扔给Gemini 1.5 Pro,它连手写的备注都认出来了。这比传统OCR强的地方是它能理解上下文——比如它知道表格里的"合计"应该等于上面各项加起来,如果不对它会提醒你。

第二,分析图表和报告。把一份PDF的财务报告截图发给Claude(Claude 3.5 Sonnet支持图像输入),它能分析出收入增长趋势、哪个产品线在拖后腿、跟去年同期比有什么变化。以前需要财务分析师做的事,现在AI可以先给你一个初筛。

第三,视频理解。Gemini 1.5 Pro支持上传最长1小时的视频,它能总结视频讲了什么、找到某个时间点说的某句话。我传过一个40分钟的线上培训录像,它准确找到了"Q&A环节"是从第32分钟开始的。这个功能对会议记录、培训内容管理非常实用。

主流多模态模型怎么选

目前在用的多模态模型主要有这几个:

GPT-4o:综合能力最强,图片理解很准,支持实时语音对话,但价格偏贵。适合需要高精度图像分析的场景。

Gemini 1.5 Pro/Flash:视频处理是独家优势(支持超长上下文),免费额度大方,但中文OCR有时不如国内模型准。

Claude 3.5 Sonnet:图表和文档分析能力强,逻辑推理好,但只支持图片输入,不支持视频和音频。

通义千问VL:中文OCR和中文场景理解最好,价格便宜,适合国内企业用。

DeepSeek-V2/V3:主打性价比,文本能力强,多模态还在追,图片理解够用但没到顶尖。

现在还做不好的地方

别被宣传视频骗了。多模态AI现在的局限也不少:

一是视觉幻觉——它会"看到"图片里不存在的东西。我传过一张产品照片,它说"背景里有书架",实际上照片是在白墙前拍的。二是对细节的准确性——小字、密集表格、复杂图表容易解析错。三是对动态场景——比如体育比赛的实时视频,理解速度和准确性都还跟不上专业需求。

说白了,多模态AI目前最擅长的还是"静态内容理解"——图片、文档、预录视频。实时交互和精确分析还有一段路要走。

对普通用户的建议

如果你只是日常用AI,不需要特意去追求多模态。ChatGPT Plus或者Kimi的付费版就够用了,它们都支持上传图片。如果你经常处理文档、表格、PDF,可以考虑Claude或者通义千问VL。视频相关需求目前只能用Gemini。

有一点要注意:上传敏感图片(身份证、合同、内部数据)到云端AI,理论上服务商能看到。涉及隐私的资料建议先在本地脱敏处理,或者用本地部署的开源模型(比如miniCPM-V或者Qwen2-VL),虽然效果比不上云端大模型,但数据安全有保障。

标签: 多模态AI GPT-4o AI图像识别 AI科普 大模型

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~