Auto-sync: 2026-04-17 20:17
This commit is contained in:
29
wiki/concepts/语义去重.md
Normal file
29
wiki/concepts/语义去重.md
Normal file
@@ -0,0 +1,29 @@
|
||||
---
|
||||
title: "语义去重"
|
||||
type: concept
|
||||
tags: [ai, data-processing]
|
||||
last_updated: 2026-04-17
|
||||
---
|
||||
|
||||
## Definition
|
||||
通过计算文本的语义相似度来识别重复或高度相似内容的去重技术,相比基于关键词的精确匹配更加智能。
|
||||
|
||||
## How It Works
|
||||
1. 将文本转换为向量嵌入
|
||||
2. 计算两个向量的相似度(余弦相似度)
|
||||
3. 设置相似度阈值,超过阈值则判定为重复
|
||||
4. 过滤掉重复内容后保留唯一项
|
||||
|
||||
## Advantages
|
||||
- 能识别语义相同但表达方式不同的重复内容
|
||||
- 不受拼写、措辞差异影响
|
||||
- 支持跨语言去重
|
||||
|
||||
## Use Cases
|
||||
- 内容策划:避免重复推荐相同创意思路
|
||||
- 知识管理:识别重复或相似的笔记
|
||||
- 数据清洗:清理重复的文档或评论
|
||||
|
||||
## Related
|
||||
- [[向量嵌入]] — 实现语义去重的基础技术
|
||||
- [[SQLite]] — 存储向量嵌入的轻量级数据库
|
||||
Reference in New Issue
Block a user