Auto-sync
This commit is contained in:
34
wiki/concepts/Embedding.md
Normal file
34
wiki/concepts/Embedding.md
Normal file
@@ -0,0 +1,34 @@
|
||||
---
|
||||
title: "Embedding"
|
||||
type: concept
|
||||
tags: [embedding, vector, rag, nlp]
|
||||
sources: ["RAG从入门到精通系列1:基础RAG"]
|
||||
last_updated: 2026-04-15
|
||||
---
|
||||
|
||||
## Definition
|
||||
将文本(Word、Sentence、Document)转换为固定长度的数值向量(Embedding Vector)的技术,捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。
|
||||
|
||||
## Technical Details
|
||||
- 输出为固定长度向量(如 768维、1024维、1536维)
|
||||
- 语义相近的文本在向量空间中距离更近
|
||||
- 支持余弦相似度、点积等多种相似度衡量方法
|
||||
|
||||
## Embedding Model
|
||||
- **BAAI BGE 系列**:开源中文优化 Embedding Model
|
||||
- **OpenAI text-embedding-3**:OpenAI 官方 Embedding API
|
||||
- Context Window 通常 512~8192 token
|
||||
|
||||
## Applications
|
||||
- [[RAG]]:文档和问题的向量化,支持语义检索
|
||||
- 文本相似度计算
|
||||
- 聚类分析
|
||||
- 推荐系统
|
||||
|
||||
## Related Concepts
|
||||
- [[向量数据库]]:存储 Embedding Vector 的数据库
|
||||
- [[RAG]]:Embedding 的主要应用场景
|
||||
- [[Token]]:文本被分词后的基本单位
|
||||
|
||||
## Sources
|
||||
- [[RAG从入门到精通系列1:基础RAG]]
|
||||
Reference in New Issue
Block a user