--- title: "PIIRedaction" type: concept tags: ["privacy", "pii", "gdpr", "hipaa", "voice-ai"] last_updated: 2026-05-02 --- # PIIRedaction(个人身份信息脱敏) ## Definition PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。 ## Why It Must Be a Pipeline Stage - **合规性**:HIPAA(医疗)、GDPR(欧洲)、SOC 2(企业安全)要求处理录音/转录时保护 PII - **不可逆性**:一旦 PII 被写入日志/CMS/数据库,删除成本极高 - **范围**:医疗记录(MRN、病历号)、法律记录(案件号、律师姓名)、客服录音(账号、密码) ## Detection Methods | 方法 | 适用场景 | 精度 | |------|---------|------| | 正则规则 | 电话、邮箱、信用卡、SSN | 高(规则明确) | | NER 模型 | 人名、地址、机构名 | 中(依赖模型质量) | | 云端 PII API | 大规模、多种 PII 类型 | 高(AssemblyAI/云 ASR 内置) | ## Pipeline Position ``` 音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统 ↑ PIIRedaction 在转录之后执行 ``` ## Redaction Symbols | 符号 | 含义 | |------|------| | `[REDACTED]` | 已脱敏 | | `[PHONE]` | 电话号码 | | `[EMAIL]` | 邮箱地址 | | `[SSN]` | 社保号 | | `[NAME]` | 人名 | ## Critical Rule > "Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容 ## Related Concepts - [[StructuredTranscriptJSON]] — PII 脱敏后的输出格式 - [[LLMHandoff]] — 脱敏后传递给 LLM(避免 LLM 学习 PII) - [[PIIRedaction]] 在 [[engineering-voice-ai-integration-engineer]] 中是命名管道阶段 ## Related Sources - [[engineering-voice-ai-integration-engineer]]