上个月回西安跟几个老同学吃饭,一个做装修的朋友突然问我:"你们搞的那个ChatGPT,到底是什么原理?怎么问啥都能答?"
我想了想,用"神经网络""Transformer架构"这些词解释肯定不合适。后来我说:你就想象一个读了几千亿字文章的人,他不一定什么都懂,但他读过的东西足够多,能根据你问的问题,从脑子里拼出一个最合理的回答。这个比喻虽然不严谨,但方向是对的。
回来以后我决定写一篇真正能让外行看明白的LLM科普。不堆术语,不画架构图,就说清楚它到底是怎么一回事。
LLM的三个核心能力,其实就一件事
大语言模型说白了就干一件事:预测下一个字(token)。
你给它"今天天气真",它预测后面大概率是"好"或"热"或"冷"。你给它"1+1=",它预测后面是"2"。你给它"中国的首都是",它预测后面是"北京"。
就这么一件事,但因为它读过的文本量实在太大了——GPT-4的训练数据据说有十几万亿个token——所以它"猜下一个字"的能力强到了看起来像在"理解"和"推理"的程度。
这就像一个职业棋手下了几万盘棋之后,看一眼棋盘就知道下一步走哪最好。他不用计算,直觉就行。LLM也是靠"直觉"——只不过它的直觉建立在几千亿字的阅读量上。
为什么2023年突然爆发了
其实语言模型这个概念不新。2018年Google就发了BERT,2020年OpenAI发了GPT-3。但当时没出圈。
转折点是ChatGPT。它做的事说起来简单——给GPT加了对话能力和人类反馈强化学习(RLHF)——但用户体验直接拉满了。以前你跟AI说话要写prompt prompt engineering,现在直接聊天就行。
然后2023年底到2024年是国产大模型的爆发期:百度的文心一言、阿里的通义千问、字节的豆包、月之暗面的Kimi、深度求索的DeepSeek……一家接一家往外蹦。
到了2025-2026年,战局清晰了很多。DeepSeek靠开源和性价比(API价格是GPT-4的几十分之一)杀出了一条路,成了中文圈最有存在感的国产模型之一。Kimi靠超长上下文(能一次处理几十万字)拿下了论文阅读和长文档分析的场景。豆包背靠字节的流量和产品矩阵,用户量应该是最大的。
LLM到底能干什么,不能干什么
能干的:
文本生成(写文章、写邮件、写代码)——这是基本功,几乎所有主流模型都做得不错。
信息提取和总结——给一篇长文让它提炼要点,ChatGPT和Kimi都很强。
翻译——DeepL可能更专业,但LLM的翻译质量已经够日常用了。
编程辅助——GitHub Copilot和Cursor这两年在程序员圈基本成了标配。
不能干的(或者说现在还不太行的):
精确计算——你让它算大数乘法,它经常错。因为它是"猜"的,不是算的。
实时信息——除非接了搜索功能,模型本身的知识停在训练截止日期。
真正的理解和创造——它只是在概率上拼出最像"理解"和"创造"的文本。这个区别很微妙,但很重要。
做决策——LLM可以给你建议,但不能替你拍板。责任在你这。
选哪个模型用
这个问题我被问得最多。我一般这么建议:
日常聊天、写文案、做翻译——豆包或通义千问足够了,免费而且快。
读论文、分析长文档、需要深入思考的问题——Kimi,上下文长是硬优势。
写代码、逻辑推理、需要高质量输出的工作——DeepSeek V3或Claude,目前中文编程和深度分析能力领先。
预算充足、需要顶级综合能力——ChatGPT(GPT-4o)或Claude,综合体验还是最稳的。
如果你只是好奇想玩玩,随便下一个就行。现在的免费模型能力已经远超两年前的付费产品了。
标签: 大语言模型 LLM ChatGPT DeepSeek 人工智能科普 AI百科
还木有评论哦,快来抢沙发吧~