1.1 KiB
1.1 KiB
title, type, tags, last_updated
| title | type | tags | last_updated |
|---|---|---|---|
| Hybrid Fingerprinting | concept | 2026-05-01 |
Definition
结合精确匹配(SHA-256 主键哈希)与模糊匹配(向量语义相似度)两种信号,防止因表面相似而误合并不同记录的混合指纹识别机制。
The Problem
纯语义相似度是模糊的:
"John Doe ID:101"与"Jon Doe ID:102"语义高度相似- 但主键不同(ID:101 ≠ ID:102),实际上是两条不同的记录
- 若仅依赖语义相似度,可能被错误聚类合并
Solution
Hybrid Score = SHA-256(PK_hash) + Vector_Similarity(embedding)
- PK Hash differs → 强制分离聚类,不允许合并
- PK Hash matches → 才考虑向量相似度进行聚类
Implementation
# 伪代码
for each candidate_pair:
if sha256(pk1) != sha256(pk2):
force_separate_clusters() # PK不同,强制分离
else:
if vector_similarity(embedding1, embedding2) > threshold:
merge_clusters() # PK相同且语义相似,才合并