2.1 KiB
2.1 KiB
title, type, last_updated
| title | type | last_updated |
|---|---|---|
| Semantic Deduplication | concept | 2026-04-22 |
Definition
通过向量嵌入(vector embedding)计算文本内容的语义相似度,在相似度超过阈值时判定为重复,从而实现比精确匹配更智能的去重能力。
Mechanism
- Embedding 生成:将文本内容(选题、摘要、评论等)通过 LLM 或专用 embedding 模型(如 OpenAI text-embedding-3-small)转为高维向量
- 相似度计算:使用余弦相似度(cosine similarity)或点积(dot product)比较向量距离
- 阈值判定:相似度 > 阈值(通常 0.85-0.95)则判定为重复
- 存储与检索:向量存入数据库(SQLite + extension / pgvector / Qdrant),检索时做 ANN(近似最近邻)搜索
Why It Matters
精确匹配(字符串/哈希去重)无法识别语义重复:
- "Claude Code 发布了新功能" vs "Anthropic's CLI agent got an update" — 同一事件,不同措辞
- 语义去重确保:不做重复选题,不生成相似内容,不过度覆盖同一主题
Applications
| 场景 | 工具 | 说明 |
|---|---|---|
| YouTube 选题去重 | YouTube-Content-Pipeline | SQLite 存储向量,从不推送同一选题两次 |
| 知识库 RAG | Knowledge-Base-RAG | 检索时过滤语义重复的上下文片段 |
| Newsletter 去重 | Inbox-De-clutter | 避免同一事件被重复摘要 |
| 竞品分析 | Pre-Build-Idea-Validator | 识别赛道内相似产品 |
Implementation Notes
- SQLite:可用
sqlite-vss扩展(基于 FAISS)实现向量存储和 ANN 搜索 - Embedding 模型选择:text-embedding-3-small(OpenAI)性价比最高;BGE-m3(国产,支持中文)
- 阈值调优:高阈值(0.95)保守去重,低阈值(0.85)激进去重,需根据场景调整
- 更新策略:已有内容变化时需重新生成 embedding
Connections
- Vector-Embedding — 底层使能技术
- Knowledge-Base-RAG — 应用场景之一
- YouTube-Content-Pipeline — 具体应用实例
- Pre-Build-Validation — 避免重复发现同类竞品