Files
nexus/wiki/concepts/PIIRedaction.md
2026-05-03 05:42:12 +08:00

57 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "PIIRedaction"
type: concept
tags: ["privacy", "pii", "gdpr", "hipaa", "voice-ai"]
last_updated: 2026-05-02
---
# PIIRedaction个人身份信息脱敏
## Definition
PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。
## Why It Must Be a Pipeline Stage
- **合规性**HIPAA医疗、GDPR欧洲、SOC 2企业安全要求处理录音/转录时保护 PII
- **不可逆性**:一旦 PII 被写入日志/CMS/数据库,删除成本极高
- **范围**医疗记录MRN、病历号、法律记录案件号、律师姓名、客服录音账号、密码
## Detection Methods
| 方法 | 适用场景 | 精度 |
|------|---------|------|
| 正则规则 | 电话、邮箱、信用卡、SSN | 高(规则明确) |
| NER 模型 | 人名、地址、机构名 | 中(依赖模型质量) |
| 云端 PII API | 大规模、多种 PII 类型 | 高AssemblyAI/云 ASR 内置) |
## Pipeline Position
```
音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统
PIIRedaction 在转录之后执行
```
## Redaction Symbols
| 符号 | 含义 |
|------|------|
| `[REDACTED]` | 已脱敏 |
| `[PHONE]` | 电话号码 |
| `[EMAIL]` | 邮箱地址 |
| `[SSN]` | 社保号 |
| `[NAME]` | 人名 |
## Critical Rule
> "Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容
## Related Concepts
- [[StructuredTranscriptJSON]] — PII 脱敏后的输出格式
- [[LLMHandoff]] — 脱敏后传递给 LLM避免 LLM 学习 PII
- [[PIIRedaction]] 在 [[engineering-voice-ai-integration-engineer]] 中是命名管道阶段
## Related Sources
- [[engineering-voice-ai-integration-engineer]]