Files
nexus/wiki/concepts/Embedding.md
2026-04-15 15:02:52 +08:00

1.1 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Embedding concept
embedding
vector
rag
nlp
RAG从入门到精通系列1基础RAG
2026-04-15

Definition

将文本Word、Sentence、Document转换为固定长度的数值向量Embedding Vector的技术捕获文本的语义信息使得语义相似的内容在向量空间中距离相近。

Technical Details

  • 输出为固定长度向量(如 768维、1024维、1536维
  • 语义相近的文本在向量空间中距离更近
  • 支持余弦相似度、点积等多种相似度衡量方法

Embedding Model

  • BAAI BGE 系列:开源中文优化 Embedding Model
  • OpenAI text-embedding-3OpenAI 官方 Embedding API
  • Context Window 通常 512~8192 token

Applications

  • RAG:文档和问题的向量化,支持语义检索
  • 文本相似度计算
  • 聚类分析
  • 推荐系统
  • 向量数据库:存储 Embedding Vector 的数据库
  • RAGEmbedding 的主要应用场景
  • Token:文本被分词后的基本单位

Sources