nexus/wiki/concepts/Semantic-Deduplication.md at ca96e409befbb298af66c0d1fcbd7d7371d63dcf

Files

weishen e823c78a9b Auto-sync: 2026-04-23 00:02

2026-04-23 00:02:55 +08:00

title, type, last_updated

title	type	last_updated
Semantic Deduplication	concept	2026-04-22

Definition

通过向量嵌入（vector embedding）计算文本内容的语义相似度，在相似度超过阈值时判定为重复，从而实现比精确匹配更智能的去重能力。

Embedding 生成：将文本内容（选题、摘要、评论等）通过 LLM 或专用 embedding 模型（如 OpenAI text-embedding-3-small）转为高维向量
相似度计算：使用余弦相似度（cosine similarity）或点积（dot product）比较向量距离
阈值判定：相似度 > 阈值（通常 0.85-0.95）则判定为重复
存储与检索：向量存入数据库（SQLite + extension / pgvector / Qdrant），检索时做 ANN（近似最近邻）搜索

精确匹配（字符串/哈希去重）无法识别语义重复：