西安SEO优化推广多少钱？

月度服务费约2000-8000元，按效果付费可依排名结算。

网站优化多久见效？

新站3-6个月，老站1-3个月可见排名提升。

RAG是什么？一文讲透检索增强生成——大模型不再胡说的秘密

王尘宇 AI百科 2026-06-20 10:05:22 5

你用过大模型的话一定遇到过这种情况：问一个问题，它回答得头头是道，但你一查，里面的数据是编的。这就是大模型的幻觉问题。也是RAG技术被发明出来的原因。

RAG的全称是Retrieval-Augmented Generation，翻译过来叫检索增强生成。名字听着挺唬人，其实逻辑不复杂。本文尽量用大白话把它说清楚。

没有RAG的大模型是怎么干活的

先把场景说清楚。假设你问ChatGPT：2024年诺贝尔物理学奖得主是谁？

如果没有联网功能，ChatGPT回答这个问题的方式很粗糙：它在训练数据里找跟诺贝尔物理学奖相关的内容，然后基于概率生成一个回答。问题是它的训练数据截止到某个时间点——比如2023年底。2024年的获奖者它根本没见过。

这时候它有两个选择：一是告诉你它不知道，二是编一个。不幸的是，大模型经常选择第二种。它不会说我不知道，而是根据2023年之前的获奖者规律，猜一个名字出来。这就是幻觉。

之前有个法律圈的典型案例：美国一个律师用ChatGPT写法律文书，里面引用了6个判例。法官一看，这6个判例全是ChatGPT编的，根本不存在。律师被罚了款。这个事在2023年闹得挺大。

RAG解决了什么问题

RAG的思路很直接——在模型生成回答之前，先让它去查资料。

工作流程是这样的：

1. 你问一个问题。

2. 系统把你的问题转成向量（一种数学表示，可以理解为把文字变成数字坐标）。

3. 用这个向量去一个知识库里搜索最相关的文档片段。

4. 把搜到的片段和你的问题一起塞给大模型。

5. 大模型根据给定的资料回答问题，并附上来源。

这样一来，大模型就不是凭记忆回答了，而是像开卷考试一样，先翻书再答题。只要知识库里的资料是对的，回答的准确性就大幅提升。

RAG的三个核心组件

一个完整的RAG系统有三个关键部分：

Embedding模型：负责把文字变成向量。你可以理解为它给每段文字打了一个语义坐标。语义越接近的文字，在向量空间里的距离就越近。苹果很好吃和苹果真甜的距离很近，苹果很好吃和iPhone15降价了的距离就远。目前常用的Embedding模型有OpenAI的text-embedding-3、阿里通义的text-embedding-v2等。

向量数据库：负责存储和检索这些向量。文档被切成小段后，每一段都生成一个向量存入数据库。查询时，用户的问句也转成向量，在数据库里找距离最近的几个文档段。Milvus、Pinecone、Weaviate、Qdrant是目前常用的向量数据库，Chroma和FAISS是开源的轻量选择。

LLM（大语言模型）：拿到检索到的资料后，负责组织语言、生成最终回答。这里的关键是提示词设计——你得告诉模型只用我给你的资料回答，资料里没有的就说不知道。