35 lines
1.1 KiB
Markdown
35 lines
1.1 KiB
Markdown
---
|
||
title: "Embedding"
|
||
type: concept
|
||
tags: [embedding, vector, rag, nlp]
|
||
sources: ["RAG从入门到精通系列1:基础RAG"]
|
||
last_updated: 2026-04-15
|
||
---
|
||
|
||
## Definition
|
||
将文本(Word、Sentence、Document)转换为固定长度的数值向量(Embedding Vector)的技术,捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。
|
||
|
||
## Technical Details
|
||
- 输出为固定长度向量(如 768维、1024维、1536维)
|
||
- 语义相近的文本在向量空间中距离更近
|
||
- 支持余弦相似度、点积等多种相似度衡量方法
|
||
|
||
## Embedding Model
|
||
- **BAAI BGE 系列**:开源中文优化 Embedding Model
|
||
- **OpenAI text-embedding-3**:OpenAI 官方 Embedding API
|
||
- Context Window 通常 512~8192 token
|
||
|
||
## Applications
|
||
- [[RAG]]:文档和问题的向量化,支持语义检索
|
||
- 文本相似度计算
|
||
- 聚类分析
|
||
- 推荐系统
|
||
|
||
## Related Concepts
|
||
- [[向量数据库]]:存储 Embedding Vector 的数据库
|
||
- [[RAG]]:Embedding 的主要应用场景
|
||
- [[Token]]:文本被分词后的基本单位
|
||
|
||
## Sources
|
||
- [[RAG从入门到精通系列1:基础RAG]]
|