57 lines
1.9 KiB
Markdown
57 lines
1.9 KiB
Markdown
---
|
||
title: "PIIRedaction"
|
||
type: concept
|
||
tags: ["privacy", "pii", "gdpr", "hipaa", "voice-ai"]
|
||
last_updated: 2026-05-02
|
||
---
|
||
|
||
# PIIRedaction(个人身份信息脱敏)
|
||
|
||
## Definition
|
||
|
||
PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。
|
||
|
||
## Why It Must Be a Pipeline Stage
|
||
|
||
- **合规性**:HIPAA(医疗)、GDPR(欧洲)、SOC 2(企业安全)要求处理录音/转录时保护 PII
|
||
- **不可逆性**:一旦 PII 被写入日志/CMS/数据库,删除成本极高
|
||
- **范围**:医疗记录(MRN、病历号)、法律记录(案件号、律师姓名)、客服录音(账号、密码)
|
||
|
||
## Detection Methods
|
||
|
||
| 方法 | 适用场景 | 精度 |
|
||
|------|---------|------|
|
||
| 正则规则 | 电话、邮箱、信用卡、SSN | 高(规则明确) |
|
||
| NER 模型 | 人名、地址、机构名 | 中(依赖模型质量) |
|
||
| 云端 PII API | 大规模、多种 PII 类型 | 高(AssemblyAI/云 ASR 内置) |
|
||
|
||
## Pipeline Position
|
||
|
||
```
|
||
音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统
|
||
↑
|
||
PIIRedaction 在转录之后执行
|
||
```
|
||
|
||
## Redaction Symbols
|
||
|
||
| 符号 | 含义 |
|
||
|------|------|
|
||
| `[REDACTED]` | 已脱敏 |
|
||
| `[PHONE]` | 电话号码 |
|
||
| `[EMAIL]` | 邮箱地址 |
|
||
| `[SSN]` | 社保号 |
|
||
| `[NAME]` | 人名 |
|
||
|
||
## Critical Rule
|
||
|
||
> "Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容
|
||
|
||
## Related Concepts
|
||
- [[StructuredTranscriptJSON]] — PII 脱敏后的输出格式
|
||
- [[LLMHandoff]] — 脱敏后传递给 LLM(避免 LLM 学习 PII)
|
||
- [[PIIRedaction]] 在 [[engineering-voice-ai-integration-engineer]] 中是命名管道阶段
|
||
|
||
## Related Sources
|
||
- [[engineering-voice-ai-integration-engineer]]
|