大模型为什么会“一本正经地胡说八道”?用大白话解释AI的原理

王尘宇 AI百科 8

上周有个做外贸的朋友问我:“你们天天说大模型、大模型,这东西到底怎么工作的?为什么有时候特别聪明,有时候连'9.11和9.9哪个大'都能答错?”我想了想,这个问题确实值得写一篇。不是那种满篇“Transformer架构”“注意力机制”的技术论文,就用大白话把它说明白。

大模型本质上就是个“超级接龙”

别被“大模型”这个名字唬住。去掉所有专业术语,大模型干的事情就一件:根据你输入的文本,预测下一个最可能出现的字

你输入“今天天气真”,模型在几毫秒内扫过它读过的所有文本,算出一个概率:下一个字是“好”的概率最高(67%),“热”次之(15%),“冷”再次之(8%)。然后它输出“好”。接着,整个句子变成“今天天气真好”,它继续预测下一个字——“,我们去公园吧”。

整个过程就是一个字一个字往外蹦,每次蹦的时候都选概率最高的那个。所以大模型其实是个“文字接龙机”,只不过它在几万亿字的语料上训练过,接出来的龙读起来像真人在说话。

那“一本正经胡说八道”是怎么回事?

因为模型没有“事实检查”机制。它只是在做文字接龙,不是在查数据库。

比如你问“曹操有几个儿子”,如果训练数据里有明确答案,它接出来的就是对的。但如果你问“曹操最喜欢的早餐是什么”,训练数据里压根没这东西,模型怎么办?它不会说“我不知道”——因为训练目标就是“接下去”,不是“查证后再说”。所以它会根据“曹操”“早餐”“古代饮食”这些关键词,猜一个读起来像那么回事的答案:“曹操的早餐以小米粥和炊饼为主,有时会配一些腌制蔬菜。”

读起来很专业,但全是编的。这就是“幻觉”——模型碰到了知识盲区,但因为被训练成“永远要接话”,所以编了一个听起来合理但完全没依据的回答。

为什么同一个模型有时候聪明有时候笨?

两个原因。

第一,训练数据不均衡。模型“读”过的中文里,技术文档、新闻、小说、论坛帖子比例不均。对常见问题(比如“地球到月球多远”),训练数据里类似问法出现了几万次,答案自然准。对冷门问题(比如“2026年6月西安SEO市场报价”),训练数据里可能根本没有,模型只能“猜”。

第二,概率选择的随机性。前面说了,模型每次“蹦字”是选概率最高的那个。但最高概率不等于100%。模型里有个参数叫temperature,好比“随机开关”。temperature低的时候,模型只选最稳的答案,显得“保守但靠谱”;temperature高的时候,模型会从概率前几名里随机选,出来的答案更“有创意”但也更容易跑偏。

大模型“大”在哪里?

大在参数数量。参数你可以理解为模型内部的“可调旋钮”。GPT-3有1750亿个参数,GPT-4据说接近1.8万亿。这些参数存了模型从训练数据里学到的所有语言模式——什么词后面常跟什么词,什么句式表达什么情绪,怎样组织一段文字显得有逻辑。

参数越多,模型能捕捉的语言规律越细,但训练成本也越高。GPT-4训练一次的电费据说超过1亿美元——这还只是电费,不算硬件和人工。

所以现在有个趋势是“小模型”:参数少但训练数据质量高、针对特定领域精调。比如有些几百亿参数的模型,在法律文书或医疗问答上表现不比万亿参数的大模型差。对普通用户来说,不必追最大的那个——够用就好。

普通人该怎么用大模型?

记住三点:

一、别把它当搜索引擎——它能帮你整理思路、写文案、翻译、总结,但涉及事实核查的事(比如法律条文、医疗建议、财务计算),自己再查一遍。

二、提问质量决定回答质量。别问“怎么写好文章”,改成“我要写一篇面向30岁职场人的微信公众号文章,主题是时间管理,语气轻松一点,800字左右”。给的信息越多,模型越不容易走偏。

三、多试几个平台。豆包、Kimi、DeepSeek、文心一言,各有擅长。同一个问题在不同模型上对比着看,比死磕一个靠谱得多。

最后说一句:大模型不是魔法,它就是一台会算概率的文字接龙机——只是这台机器读了几万亿字的书,接出来的龙比你我都利索。

标签: AI科普 大模型原理 AI幻觉 ChatGPT原理

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~