--- title: "语义去重" type: concept tags: [ai, data-processing] last_updated: 2026-04-17 --- ## Definition 通过计算文本的语义相似度来识别重复或高度相似内容的去重技术,相比基于关键词的精确匹配更加智能。 ## How It Works 1. 将文本转换为向量嵌入 2. 计算两个向量的相似度(余弦相似度) 3. 设置相似度阈值,超过阈值则判定为重复 4. 过滤掉重复内容后保留唯一项 ## Advantages - 能识别语义相同但表达方式不同的重复内容 - 不受拼写、措辞差异影响 - 支持跨语言去重 ## Use Cases - 内容策划:避免重复推荐相同创意思路 - 知识管理:识别重复或相似的笔记 - 数据清洗:清理重复的文档或评论 ## Related - [[向量嵌入]] — 实现语义去重的基础技术 - [[SQLite]] — 存储向量嵌入的轻量级数据库