Files
nexus/wiki/concepts/Embedding.md
2026-04-15 15:02:52 +08:00

35 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Embedding"
type: concept
tags: [embedding, vector, rag, nlp]
sources: ["RAG从入门到精通系列1基础RAG"]
last_updated: 2026-04-15
---
## Definition
将文本Word、Sentence、Document转换为固定长度的数值向量Embedding Vector的技术捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。
## Technical Details
- 输出为固定长度向量(如 768维、1024维、1536维
- 语义相近的文本在向量空间中距离更近
- 支持余弦相似度、点积等多种相似度衡量方法
## Embedding Model
- **BAAI BGE 系列**:开源中文优化 Embedding Model
- **OpenAI text-embedding-3**OpenAI 官方 Embedding API
- Context Window 通常 512~8192 token
## Applications
- [[RAG]]:文档和问题的向量化,支持语义检索
- 文本相似度计算
- 聚类分析
- 推荐系统
## Related Concepts
- [[向量数据库]]:存储 Embedding Vector 的数据库
- [[RAG]]Embedding 的主要应用场景
- [[Token]]:文本被分词后的基本单位
## Sources
- [[RAG从入门到精通系列1基础RAG]]