Update nexus wiki content
This commit is contained in:
56
wiki/concepts/PIIRedaction.md
Normal file
56
wiki/concepts/PIIRedaction.md
Normal file
@@ -0,0 +1,56 @@
|
||||
---
|
||||
title: "PIIRedaction"
|
||||
type: concept
|
||||
tags: ["privacy", "pii", "gdpr", "hipaa", "voice-ai"]
|
||||
last_updated: 2026-05-02
|
||||
---
|
||||
|
||||
# PIIRedaction(个人身份信息脱敏)
|
||||
|
||||
## Definition
|
||||
|
||||
PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。
|
||||
|
||||
## Why It Must Be a Pipeline Stage
|
||||
|
||||
- **合规性**:HIPAA(医疗)、GDPR(欧洲)、SOC 2(企业安全)要求处理录音/转录时保护 PII
|
||||
- **不可逆性**:一旦 PII 被写入日志/CMS/数据库,删除成本极高
|
||||
- **范围**:医疗记录(MRN、病历号)、法律记录(案件号、律师姓名)、客服录音(账号、密码)
|
||||
|
||||
## Detection Methods
|
||||
|
||||
| 方法 | 适用场景 | 精度 |
|
||||
|------|---------|------|
|
||||
| 正则规则 | 电话、邮箱、信用卡、SSN | 高(规则明确) |
|
||||
| NER 模型 | 人名、地址、机构名 | 中(依赖模型质量) |
|
||||
| 云端 PII API | 大规模、多种 PII 类型 | 高(AssemblyAI/云 ASR 内置) |
|
||||
|
||||
## Pipeline Position
|
||||
|
||||
```
|
||||
音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统
|
||||
↑
|
||||
PIIRedaction 在转录之后执行
|
||||
```
|
||||
|
||||
## Redaction Symbols
|
||||
|
||||
| 符号 | 含义 |
|
||||
|------|------|
|
||||
| `[REDACTED]` | 已脱敏 |
|
||||
| `[PHONE]` | 电话号码 |
|
||||
| `[EMAIL]` | 邮箱地址 |
|
||||
| `[SSN]` | 社保号 |
|
||||
| `[NAME]` | 人名 |
|
||||
|
||||
## Critical Rule
|
||||
|
||||
> "Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容
|
||||
|
||||
## Related Concepts
|
||||
- [[StructuredTranscriptJSON]] — PII 脱敏后的输出格式
|
||||
- [[LLMHandoff]] — 脱敏后传递给 LLM(避免 LLM 学习 PII)
|
||||
- [[PIIRedaction]] 在 [[engineering-voice-ai-integration-engineer]] 中是命名管道阶段
|
||||
|
||||
## Related Sources
|
||||
- [[engineering-voice-ai-integration-engineer]]
|
||||
Reference in New Issue
Block a user