nexus/wiki/entities/AssemblyAI.md

---
title: "AssemblyAI"
type: entity
tags: ["asr", "cloud-api", "speaker-diarization", "pii-detection"]
sources: ["engineering-voice-ai-integration-engineer"]
last_updated: 2026-05-02
---

## Aliases
- AssemblyAI

## Definition

AssemblyAI 是一个云端自动语音识别（ASR）服务 API，通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一，适合需要快速集成或大规模处理的场景。

## Key Capabilities

| 功能 | 说明 |
|------|------|
| 语音转文字 | 多语言支持，实时和批量两种模式 |
| 说话人分离 | 内置 Diarization，无需 pyannote.audio |
| PII 检测 | 自动识别并标记/脱敏姓名、SSN、信用卡等 |
| 置信度分数 | 每词级别置信度 |
| 标点和大写 | 自动添加标点、自动大写句子开头 |

## Use Cases

- **快速 MVP**：不想搭建本地 Whisper 环境，直接 API 调用
- **大规模并发**：需要处理大量音频，AssemblyAI 负责扩展
- **含 PII 场景**：医疗/法律录音，内置 PII 检测减少合规负担
- **混合路由**：敏感内容走本地 Whisper，高精度需求走 AssemblyAI

## Tradeoff vs Local Whisper

| 维度 | AssemblyAI | FasterWhisper（本地） |
|------|-----------|---------------------|
| 成本 | $0.005-0.02/分钟 | GPU 折旧成本 |
| 延迟 | 取决于音频长度 | 取决于 GPU |
| 隐私 | 数据离开本地 | 完全本地 |
| 自定义 | 有限 | 完全可控 |
| 离线支持 | 无 | 有 |

## Connections
- [[FasterWhisper]] — 本地 ASR 替代方案
- [[pyannote.audio]] — 如果用 AssemblyAI 则无需独立安装
- [[PIIRedaction]] — AssemblyAI 内置 PII 检测，减少额外管道阶段

## Sources
- [[engineering-voice-ai-integration-engineer]]