title, type, tags, sources, last_updated
| title |
type |
tags |
sources |
last_updated |
| Embedding |
concept |
|
|
2026-04-15 |
Definition
将文本(Word、Sentence、Document)转换为固定长度的数值向量(Embedding Vector)的技术,捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。
Technical Details
- 输出为固定长度向量(如 768维、1024维、1536维)
- 语义相近的文本在向量空间中距离更近
- 支持余弦相似度、点积等多种相似度衡量方法
Embedding Model
- BAAI BGE 系列:开源中文优化 Embedding Model
- OpenAI text-embedding-3:OpenAI 官方 Embedding API
- Context Window 通常 512~8192 token
Applications
- RAG:文档和问题的向量化,支持语义检索
- 文本相似度计算
- 聚类分析
- 推荐系统
Related Concepts
- 向量数据库:存储 Embedding Vector 的数据库
- RAG:Embedding 的主要应用场景
- Token:文本被分词后的基本单位
Sources