title, type, tags, last_updated
| title |
type |
tags |
last_updated |
| PIIRedaction |
concept |
| privacy |
| pii |
| gdpr |
| hipaa |
| voice-ai |
|
2026-05-02 |
PIIRedaction(个人身份信息脱敏)
Definition
PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。
Why It Must Be a Pipeline Stage
- 合规性:HIPAA(医疗)、GDPR(欧洲)、SOC 2(企业安全)要求处理录音/转录时保护 PII
- 不可逆性:一旦 PII 被写入日志/CMS/数据库,删除成本极高
- 范围:医疗记录(MRN、病历号)、法律记录(案件号、律师姓名)、客服录音(账号、密码)
Detection Methods
| 方法 |
适用场景 |
精度 |
| 正则规则 |
电话、邮箱、信用卡、SSN |
高(规则明确) |
| NER 模型 |
人名、地址、机构名 |
中(依赖模型质量) |
| 云端 PII API |
大规模、多种 PII 类型 |
高(AssemblyAI/云 ASR 内置) |
Pipeline Position
Redaction Symbols
| 符号 |
含义 |
[REDACTED] |
已脱敏 |
[PHONE] |
电话号码 |
[EMAIL] |
邮箱地址 |
[SSN] |
社保号 |
[NAME] |
人名 |
Critical Rule
"Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容
Related Concepts
Related Sources