有个朋友前几天问我:你们天天说的大语言模型,它到底是怎么工作的?是真懂还是装懂?我想了半天,觉得用专业术语解释反而说不清楚。后来我用一个比喻,他一下就懂了。
把大模型想象成一个超级接话王
我让他想象这样一个场景:你身边有个朋友,从小不爱出门,但疯狂读了互联网上所有的文字——几千亿字的文章、对话、评论、论坛帖子。他不理解"下雨"是什么意思,因为他没被淋过;但他看过几百万次"下雨了记得带伞"这样的句子。
现在你问他:"今天天气——"
他脑子里瞬间闪过几十亿个接续可能,但概率最高的那个词,大概率是"不错"或者"怎么样"。这就是大语言模型的核心——它不是真的理解世界,而是通过海量文本学习到了"在什么语境下接什么话最合理"。
那它怎么学会的?三个关键步骤
第一步叫预训练。就是把海量文本喂给模型,让它做一道题——给你上文,猜下文。这就像让一个人读遍全网文章,读完你问他:这段话后面最可能接什么?练得足够多之后,模型对语言的理解就建立起来了。
第二步叫指令微调。光会接话不行,还要"听得懂人话"。预训练完的模型你跟它说"写一篇关于猫的文章",它可能不知道你要干嘛——因为网上大多数文字不是问答格式的。所以需要用大量"问题-答案"对来教它:别人问这种问题的时候,你应该这样回。
第三步叫RLHF,就是从人类反馈中学习。让真人给模型的回答打分——这个回答好,那个回答差。模型学会了讨好人类,知道什么样的回答会被点赞,什么样的会被踩。这也是为什么现在的AI对话产品用起来"很舒服"——它是被人类调教过的。
那它到底懂还是不懂?
说实话,学术界自己也在吵这个问题。一派认为模型本质上就是个统计机器,算出下一个词的概率而已,谈不上"理解"。另一派认为,当模型规模大到一定程度时,它内部确实形成了某种对世界的"表征"——比如它能回答"如果把一本厚书放在一杯水上会怎样",说明它至少对物体的物理属性有某种认知。
我的看法偏向后者。模型确实不懂"下雨"是什么感觉,但它能准确描述下雨的场景、给出带伞的建议、甚至分析为什么南方梅雨季比北方长。这种能力如果完全用"只是统计"来解释,有点说不通。
换个角度想——你家猫也不知道"量子力学"是什么,但它知道推开杯子水会洒。理解可以从不同维度产生,不一定要有感官体验。
跟普通人有什么关系
说回来,你用AI的时候不需要懂这些底层原理。但知道两件事会很有用:一是模型会胡说八道(业内叫幻觉),因为它只是在概率接话,不保证正确;二是你问问题的方式直接影响答案质量——问得越具体,回答越好。这就好比你问朋友"吃了吗"他和你说一大堆,你问"昨天中午在公司楼下那家川菜点了什么"他能给精确答案一样。
用好AI不需要懂原理,了解它的边界就够了。
标签: AI科普 大语言模型 人工智能 LLM原理 机器学习
还木有评论哦,快来抢沙发吧~