--- title: "AssemblyAI" type: entity tags: ["asr", "cloud-api", "speaker-diarization", "pii-detection"] sources: ["engineering-voice-ai-integration-engineer"] last_updated: 2026-05-02 --- ## Aliases - AssemblyAI ## Definition AssemblyAI 是一个云端自动语音识别(ASR)服务 API,通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一,适合需要快速集成或大规模处理的场景。 ## Key Capabilities | 功能 | 说明 | |------|------| | 语音转文字 | 多语言支持,实时和批量两种模式 | | 说话人分离 | 内置 Diarization,无需 pyannote.audio | | PII 检测 | 自动识别并标记/脱敏姓名、SSN、信用卡等 | | 置信度分数 | 每词级别置信度 | | 标点和大写 | 自动添加标点、自动大写句子开头 | ## Use Cases - **快速 MVP**:不想搭建本地 Whisper 环境,直接 API 调用 - **大规模并发**:需要处理大量音频,AssemblyAI 负责扩展 - **含 PII 场景**:医疗/法律录音,内置 PII 检测减少合规负担 - **混合路由**:敏感内容走本地 Whisper,高精度需求走 AssemblyAI ## Tradeoff vs Local Whisper | 维度 | AssemblyAI | FasterWhisper(本地) | |------|-----------|---------------------| | 成本 | $0.005-0.02/分钟 | GPU 折旧成本 | | 延迟 | 取决于音频长度 | 取决于 GPU | | 隐私 | 数据离开本地 | 完全本地 | | 自定义 | 有限 | 完全可控 | | 离线支持 | 无 | 有 | ## Connections - [[FasterWhisper]] — 本地 ASR 替代方案 - [[pyannote.audio]] — 如果用 AssemblyAI 则无需独立安装 - [[PIIRedaction]] — AssemblyAI 内置 PII 检测,减少额外管道阶段 ## Sources - [[engineering-voice-ai-integration-engineer]]