title, type, tags, sources, last_updated
| title |
type |
tags |
sources |
last_updated |
| Blocking |
concept |
| identity-resolution |
| performance |
| algorithm |
| entity-matching |
|
|
2026-04-25 |
Blocking(阻塞/分块)
Definition
身份解析中的候选对筛选技术——通过预计算的 blocking key 将全量 O(n²) 记录对比较减少为可控规模候选集的 O(n×k) 操作,是大规模实体解析的性能关键。
Blocking Key Types
| 类型 |
示例 |
适用场景 |
| Email Domain |
acme.com |
同一公司账号 |
| Phone Prefix |
+1555 |
同一地区号码 |
| Name Soundex |
S530 |
语音相似姓名(Williams→W452) |
| Postal Code |
94105 |
同一地理区域 |
| Composite |
email_domain + name_soundex |
联合分块,减少假阳性 |
Workflow
Design Considerations
- 召回率 vs 性能:blocking key 越宽松 → 更多候选对 → 更高召回率但更慢;越严格 → 更少候选对但可能遗漏真匹配
- 假阴性风险:两个同实体但 blocking key 不同(如 "gmail.com" vs "googlemail.com")会跨块遗漏
- 假阳性成本:同块内异实体(如同名不同人的 "John Smith")需靠 scoring 层排除
Relationship to Related Concepts