Files
nexus/wiki/concepts/PIIRedaction.md
2026-05-03 05:42:12 +08:00

1.9 KiB
Raw Blame History

title, type, tags, last_updated
title type tags last_updated
PIIRedaction concept
privacy
pii
gdpr
hipaa
voice-ai
2026-05-02

PIIRedaction个人身份信息脱敏

Definition

PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。

Why It Must Be a Pipeline Stage

  • 合规性HIPAA医疗、GDPR欧洲、SOC 2企业安全要求处理录音/转录时保护 PII
  • 不可逆性:一旦 PII 被写入日志/CMS/数据库,删除成本极高
  • 范围医疗记录MRN、病历号、法律记录案件号、律师姓名、客服录音账号、密码

Detection Methods

方法 适用场景 精度
正则规则 电话、邮箱、信用卡、SSN 高(规则明确)
NER 模型 人名、地址、机构名 中(依赖模型质量)
云端 PII API 大规模、多种 PII 类型 AssemblyAI/云 ASR 内置)

Pipeline Position

音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统
                 ↑
         PIIRedaction 在转录之后执行

Redaction Symbols

符号 含义
[REDACTED] 已脱敏
[PHONE] 电话号码
[EMAIL] 邮箱地址
[SSN] 社保号
[NAME] 人名

Critical Rule

"Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容