最近这两年,「大模型」这三个字到处都是。朋友圈在说、抖音在推、连楼下卖包子的老板都在问「那个AI写文案的玩意儿到底是什么」。但真正能把这事讲清楚的人不多。我用大白话给你说一遍。
大模型本质上是什么
想象你有一个超级爱读书的朋友。他从小到大读了几亿本书——从小学课本到博士论文、从小说到编程手册、从中文到英文到法文——什么都读。你问他任何问题,他都能根据自己读过的东西给出一个答案。
大模型就是这么个东西。它不是「真正理解」了什么,而是读了海量的文字之后,学会了「下一个字最可能是什么」。
你打「今天天气」,它根据读过的内容推测后面最可能是「不错」。你再问「为什么」,它接着推「因为昨天下了雨今天放晴了」。每句话都是「猜」出来的,只是这个「猜」建立在几千亿字的阅读量上,所以猜得相当准。
关键数字
| 模型 | 参数量 | 训练数据量 | 训练成本(估算) |
|---|---|---|---|
| GPT-3 | 1750亿 | 约570GB文本 | 约460万美元 |
| GPT-4 | 未公开(估1.76万亿) | 未公开 | 约1亿美元 |
| Llama 3 70B | 700亿 | 15万亿token | 约数百万美元 |
| DeepSeek V3 | 6710亿(MoE) | 14.8万亿token | 约557万美元 |
怎么训练出来的
分三步。
第一步:预训练——大量读书
把整个互联网上能扒到的公开文字——维基百科、新闻、论坛帖子、学术论文、代码仓库——全部喂给模型。这个过程叫「预训练」。
花多少钱?GPT-3级别的训练大概要几百万美元的电费和GPU租用费。DeepSeek V3说自己只花了557万美元,在圈内引起了很大的讨论,因为同级别的模型通常要花几千万甚至上亿。
第二步:指令微调——教它听话
预训练完的模型其实挺蠢的。你问「怎么煮鸡蛋」,它可能给你写一篇关于鸡蛋营养学的论文,也可能给你一段鸡蛋期货行情——因为它只是「猜字」,不知道你想要什么。
这时候需要人工标注——雇一群人,给模型看问题,让它回答,然后人类打分:「这个回答好」「这个回答不好」。模型根据这个反馈调整自己。这一步叫RLHF(人类反馈强化学习)。
第三步:对齐——别让它乱说话
教模型不做坏事。比如别教人做炸弹、别散播假消息、别骂人。这一步叫「安全对齐」。
对齐过头的模型会有个毛病——动不动就说「作为一个人工智能我不能……」。不同公司的对齐程度不一样,有的大胆些有的保守些。
为什么叫「大」模型
大在三个地方:参数多、数据多、算力大。
参数就是模型里的「神经元」数量。最早的AI模型可能只有几万个参数,今天的主流模型动辄几百亿到几千亿。参数越多,模型能记住的「模式」就越复杂——就像一个画家,只会画直线和会画人脸是两回事。
但参数多也意味着运行成本高。跑一次GPT-4级别的推理,光是GPU的电费就不是小数目。这也是为什么免费的AI服务后面总在烧钱。
和我们日常用的AI是一回事吗
是的。你手机上的豆包、Kimi、文心一言、通义千问、DeepSeek——它们底层都是大模型。只是各家在基础模型上做了不同的优化和包装。
有的加了搜索能力(比如秘塔AI搜索),有的加了长文本处理,有的专门优化了代码能力。但底子都是同一个东西——大语言模型。
现在的趋势是:大模型在变小。以前觉得越大越好,现在发现用更聪明的训练方法,小模型也能达到大模型的效果。DeepSeek用的MoE(混合专家)架构就是一个例子——6710亿参数但每次只激活370亿,效果却不比全激活的差。
还木有评论哦,快来抢沙发吧~