Files
nexus/wiki/concepts/语义去重.md
2026-04-17 20:17:28 +08:00

885 B

title, type, tags, last_updated
title type tags last_updated
语义去重 concept
ai
data-processing
2026-04-17

Definition

通过计算文本的语义相似度来识别重复或高度相似内容的去重技术,相比基于关键词的精确匹配更加智能。

How It Works

  1. 将文本转换为向量嵌入
  2. 计算两个向量的相似度(余弦相似度)
  3. 设置相似度阈值,超过阈值则判定为重复
  4. 过滤掉重复内容后保留唯一项

Advantages

  • 能识别语义相同但表达方式不同的重复内容
  • 不受拼写、措辞差异影响
  • 支持跨语言去重

Use Cases

  • 内容策划:避免重复推荐相同创意思路
  • 知识管理:识别重复或相似的笔记
  • 数据清洗:清理重复的文档或评论
  • 向量嵌入 — 实现语义去重的基础技术
  • SQLite — 存储向量嵌入的轻量级数据库