--- title: "Vector Embedding" type: concept last_updated: 2026-04-22 --- ## Definition 将文本、图片、音频等非结构化数据通过深度学习模型转换为高维稠密向量(dense vector),使语义相似的内容在向量空间中彼此接近。 ## How It Works 1. **编码(Encoding)**:文本经过 embedding 模型(如 BERT、OpenAI text-embedding-3-small、BGE-m3)处理,输出固定维度的实数向量(常见维度:384/768/1536/3072) 2. **存储**:向量存入向量数据库(Qdrant、Pinecone、Weaviate)或支持向量索引的数据库(pgvector、SQLite + sqlite-vss) 3. **检索**:查询时将查询文本同样编码为向量,在向量空间中搜索最近邻(ANN 或 KNN) ## Key Properties | 属性 | 说明 | |------|------| | 维度(dimensionality) | 越高表达能力越强,但存储/计算成本更高 | | 语义保持(semantic preservation) | 同义词/近义表达在空间中接近 | | 可微性 | 支持通过梯度下降持续优化(对比学习) | | 跨模态 | CLIP 等模型可实现图文跨模态检索 | ## Core Operations - **余弦相似度**(cosine similarity):衡量方向一致性,值域 [-1, 1] - **点积**(dot product):值域无界,embedding 已归一化时等价于余弦相似度 - **欧氏距离**(L2 distance):衡量绝对距离 ## Applications | 应用 | 说明 | |------|------| | RAG | 检索相关文档片段作为 LLM 上下文 | | 语义去重 | [[Semantic-Deduplication]] — 识别语义重复内容 | | 推荐系统 | 基于内容 embedding 找相似物品 | | 聚类分析 | 将相似文档自动分组 | ## Tools & Models - **OpenAI text-embedding-3-small**:1536 维,性价比最高($0.02/1M tokens) - **BGE-m3**:支持中文多语言,开源(FlagEmbedding) - **nomic-embed-text**:开源 768 维,支持本地部署 - **sqlite-vss**:SQLite 扩展,支持向量 ANN 搜索 - **Qdrant**:开源向量数据库,支持过滤条件 ## Connections - [[Semantic-Deduplication]] — 向量嵌入的直接应用 - [[Knowledge-Base-RAG]] — RAG 的核心检索技术 - [[YouTube-Content-Pipeline]] — 用向量嵌入实现选题去重