3.4 KiB
3.4 KiB
title, type, tags, date
| title | type | tags | date | |||
|---|---|---|---|---|---|---|
| RAG从入门到精通系列1:基础RAG | source |
|
2025-01-16 |
Source File
Summary
- 核心主题:RAG(检索增强生成)三阶段管道的完整技术栈与实操流程
- 问题域:LLM 自身知识有限、存在幻觉、无法访问最新信息的问题
- 方法/机制:Indexing(文档→向量)→ Retrieval(查询→Top-K相关块)→ Generation(上下文→答案)
- 结论/价值:RAG 将外部知识注入 LLM 上下文,考试正确率从 60% 提升至 90%,是 LLM 落地生产的标配架构
Key Claims
- RAG 三阶段管道(Indexing→Retrieval→Generation)是 LLM 应用的事实标准架构
- Indexing 阶段核心:文档加载 → 文本分块(512~8192 token Context Window 限制)→ BAAI Embedding 向量化 → 存入 Qdrant 向量数据库
- Retrieval 阶段核心:根据 Query 向量在 Vector Store 中按余弦相似度检索 Top-K 相关文档块
- Generation 阶段核心:Query + Top-K Context → PromptTemplate → LLM 生成答案
- Embedding Model(嵌入模型,BAAI 系列)将文本转为固定长度向量,是语义检索的基础
- 技术栈:Qwen(LLM)+ BAAI(Embedding)+ LangChain(编排)+ Qdrant(向量存储)
- LangSmith 是监控 RAG Pipeline 各环节(Latency/Token/Trace)的可视化调试工具
Key Quotes
"RAG 通过检索外部知识解决 LLM 幻觉,考试正确率从 60% 提升至 90%"
Key Concepts
- RAG:检索增强生成,通过外部知识检索增强 LLM 回答质量
- 向量检索:基于向量相似度(余弦相似度)在向量数据库中检索相关文档块
- 文档分块:将长文档切分为适合 LLM Context Window 的小块(512~8192 token)
- 嵌入向量:文本通过 Embedding Model 转为固定长度浮点数向量
- 提示词模板:将 Query + Context 组装为 LLM 可处理的格式化提示词
Key Entities
- Qwen:通义千问大模型,RAG Pipeline 中的 LLM 组件
- BAAI:北京智源人工智能研究院,开源 Embedding 模型(BAAI/bge)
- Qdrant:Rust 编写的开源向量数据库,RAG 的存储层
- LangChain:LLM 应用开发框架,RAG Pipeline 编排
- LangSmith:LLM 应用监控调试平台,可视化 RAG 各环节 Latency 和 Trace
- PyTorch研习社:微信公众号来源
Connections
- RAG ← 包含 ← 向量检索 + 嵌入向量 + 提示词模板
- RAG ← 使用 ← Qdrant(向量存储)
- RAG ← 使用 ← BAAI(Embedding)
- RAG ← 使用 ← Qwen(LLM)
- RAG ← 编排工具 ← LangChain
- 向量检索 ← related ← 语义搜索(同一技术栈的不同表述)
- RAG ← extends ← LLM Wiki(RAG 是 LLM Wiki 的底层检索技术)
- LangSmith ← 监控 ← RAG Pipeline