Update nexus wiki content

This commit is contained in:
2026-05-03 05:42:06 +08:00
parent 90f3811b83
commit 111bc65b7b
707 changed files with 32306 additions and 7289 deletions

View File

@@ -0,0 +1,56 @@
---
title: "PIIRedaction"
type: concept
tags: ["privacy", "pii", "gdpr", "hipaa", "voice-ai"]
last_updated: 2026-05-02
---
# PIIRedaction个人身份信息脱敏
## Definition
PII Redaction 是在转录管道中将个人身份信息(姓名、身份证号、信用卡、电话、邮箱等)自动检测并替换为占位符或删除的处理阶段。作为命名且可配置的管道阶段嵌入,不是事后补丁。
## Why It Must Be a Pipeline Stage
- **合规性**HIPAA医疗、GDPR欧洲、SOC 2企业安全要求处理录音/转录时保护 PII
- **不可逆性**:一旦 PII 被写入日志/CMS/数据库,删除成本极高
- **范围**医疗记录MRN、病历号、法律记录案件号、律师姓名、客服录音账号、密码
## Detection Methods
| 方法 | 适用场景 | 精度 |
|------|---------|------|
| 正则规则 | 电话、邮箱、信用卡、SSN | 高(规则明确) |
| NER 模型 | 人名、地址、机构名 | 中(依赖模型质量) |
| 云端 PII API | 大规模、多种 PII 类型 | 高AssemblyAI/云 ASR 内置) |
## Pipeline Position
```
音频 → 预处理 → 转录 → PII 检测 → 结构化输出 → 下游系统
PIIRedaction 在转录之后执行
```
## Redaction Symbols
| 符号 | 含义 |
|------|------|
| `[REDACTED]` | 已脱敏 |
| `[PHONE]` | 电话号码 |
| `[EMAIL]` | 邮箱地址 |
| `[SSN]` | 社保号 |
| `[NAME]` | 人名 |
## Critical Rule
> "Never log raw audio content or unredacted transcript text in production monitoring systems." — 生产监控中禁止记录未脱敏内容
## Related Concepts
- [[StructuredTranscriptJSON]] — PII 脱敏后的输出格式
- [[LLMHandoff]] — 脱敏后传递给 LLM避免 LLM 学习 PII
- [[PIIRedaction]] 在 [[engineering-voice-ai-integration-engineer]] 中是命名管道阶段
## Related Sources
- [[engineering-voice-ai-integration-engineer]]