title, type, tags, sources, last_updated
| title |
type |
tags |
sources |
last_updated |
| Indexing |
concept |
|
|
2025-01-16 |
Definition
Indexing(索引阶段)是 RAG(检索增强生成)管道的第一阶段,负责将外部文档转换为可检索的向量表示并存入向量数据库。
Core Process
- 文档加载(Loading):通过 LangChain 等框架的 Document Loader 从多种来源(网页/本地文件/数据库等)加载原始文档
- 文本切分(Splitting):将长文档切分成适合 Embedding Model Context Window 的小块(Split),通常 512~4096 token
- 向量化(Embedding):使用 Embedding Model(如 BAAI/bge 系列)将文本块转换为固定长度的向量表示
- 存入向量数据库:将 Embedding Vector 存入 Vector Store(如 Qdrant、Chroma、Milvus 等)
Key Parameters
- Chunk Size:每个 Split 的 token 数量,需平衡上下文完整性和模型限制
- Chunk Overlap:相邻 Split 之间的重叠 token 数,防止信息在切分边界丢失
- Embedding Model:决定向量质量和检索效果的模型(如 BAAI、OpenAI text-embedding-3、BGE 等)
Tools
- LangChain:提供 160+ 文档加载器和向量存储集成
- LlamaIndex:专注数据连接和索引的 LLM 应用框架
- Qdrant:Rust 编写的开源向量数据库,支持过滤和混合检索
Connections
Aliases
- Document Indexing
- Chunking
- 文档索引