RAG(Retrieval Augmented Generation)是一种将检索到的信息作为上下文提供给大语言模型来产生回答的技术。RAG由搜索和大语言模型提示组成,可以看作是搜索 大语言模型的结合。
RAG的基本流程包括:将文本分块,用Transformer Encoder模型将这些块嵌入为向量,将向量放入索引,构造提示,让大语言模型基于检索到的上下文来回答用户查询。
RAG是2022年后最流行的大语言模型系统架构之一,有很多产品都是基于RAG构建的。LangChain和LlamaIndex是两个流行的开源RAG库。文章详细介绍和说明了RAG中的各种高级技术和算法,以及对这些技术的参考实现,旨在帮助开发者更深入地了解RAG技术。高级RAG技术包括:
- 分块和向量化
- 搜索引擎
- 重排序和过滤
- 查询转换
- 路由
- Agrent
- 响应合成
- 编码器和语言模型微调
- 评估RAG系统的关键指标包括:
- 检索上下文的相关性
- 回答的可靠性(即回答是否基于提供的上下文)
- 回答的相关性




参考文献:
[1] https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6
NLP工程化
1.本公众号以对话系统为中心,专注于Python/C /CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享。
2.本公众号Roadmap可查看飞书文档:https://z0yrmerhgi8.feishu.cn/wiki/Zpewwe2T2iCQfwkSyMOcgwdInhf



















