nexus/wiki/concepts/Embedding.md

---
title: "Embedding"
type: concept
tags: [embedding, vector, rag, nlp]
sources: ["RAG从入门到精通系列1：基础RAG"]
last_updated: 2026-04-15
---

## Definition
将文本（Word、Sentence、Document）转换为固定长度的数值向量（Embedding Vector）的技术，捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。

## Technical Details
- 输出为固定长度向量（如 768维、1024维、1536维）
- 语义相近的文本在向量空间中距离更近
- 支持余弦相似度、点积等多种相似度衡量方法

## Embedding Model
- **BAAI BGE 系列**：开源中文优化 Embedding Model
- **OpenAI text-embedding-3**：OpenAI 官方 Embedding API
- Context Window 通常 512~8192 token

## Applications
- [[RAG]]：文档和问题的向量化，支持语义检索
- 文本相似度计算
- 聚类分析
- 推荐系统

## Related Concepts
- [[向量数据库]]：存储 Embedding Vector 的数据库
- [[RAG]]：Embedding 的主要应用场景
- [[Token]]：文本被分词后的基本单位

## Sources
- [[RAG从入门到精通系列1：基础RAG]]