很多人觉得大模型很玄,像个黑箱。输入一段话,出来一段话,中间发生了什么完全不知道。其实拆开了看,原理没那么复杂。
先说一个概念:token。大模型不认汉字,也不认单词,它认的是token。一个token大概相当于0.7个汉字。比如"人工智能"四个字可能会被切成"人工"和"智能"两个token。你问它一句话,它先把你的话切成几百个token,然后开始干活。
核心动作就一个:预测下一个token。
比如你输入"天空是",模型会算一个概率——"蓝"的概率可能是0.6,"灰"是0.2,"黑"是0.1,等等。它选概率最大的那个输出,然后把"天空是蓝"当作新的输入,接着预测下一个。就这样一个个token往下推,直到输出一个结束标记。
那问题来了:它怎么知道天空是蓝的概率高?
这就说到训练了。大模型的训练分两步。
第一步叫预训练,说白了就是让模型看海量的文本。互联网上能扒到的文章、书籍、代码、论坛帖子,全往里灌。不用人标注,就让它自己学——看完上文猜下文。这个过程很暴力,几万张GPU跑几个月,电费就上千万。跑完之后,模型脑子里就有了一个巨大的概率分布:在什么上下文里,下一个token更可能是啥。
第二步叫对齐,也就是我们常说的微调。光会猜下一个词还不够,你还得让它"会聊天"。这一步需要人工标注数据——人写问题,人写理想答案,然后让模型学习。另外还有个RLHF(基于人类反馈的强化学习),就是让人给模型的多个回答打分,模型根据分数调整自己。
GPT系列、DeepSeek、文心一言、豆包、Kimi,底层原理都一样,都是基于Transformer架构。区别在于训练数据的选择、模型参数的大小、以及对齐阶段的偏好——这导致它们在回答风格上差异很大。DeepSeek偏技术化,豆包口语感强,Kimi擅长长文分析,没有哪个绝对更好,看你要干嘛。
有个误区:很多人以为大模型真的"懂"它在说什么。其实不是。它只是在统计层面上找到了最合理的token序列。它没有意识,没有理解,更不会推理——它只是非常擅长模仿人类语言的统计规律。
但话说回来,这种"模仿"本身已经足够强了,强到在很多任务上表现得像真的理解了一样。这就是为什么2025年了,不管你做不做技术,都该了解一下这玩意儿到底是怎么转的。
标签: 大语言模型 LLM GPT原理 Transformer DeepSeek AI科普
还木有评论哦,快来抢沙发吧~