50 lines
1.8 KiB
Markdown
50 lines
1.8 KiB
Markdown
---
|
||
title: "AssemblyAI"
|
||
type: entity
|
||
tags: ["asr", "cloud-api", "speaker-diarization", "pii-detection"]
|
||
sources: ["engineering-voice-ai-integration-engineer"]
|
||
last_updated: 2026-05-02
|
||
---
|
||
|
||
## Aliases
|
||
- AssemblyAI
|
||
|
||
## Definition
|
||
|
||
AssemblyAI 是一个云端自动语音识别(ASR)服务 API,通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一,适合需要快速集成或大规模处理的场景。
|
||
|
||
## Key Capabilities
|
||
|
||
| 功能 | 说明 |
|
||
|------|------|
|
||
| 语音转文字 | 多语言支持,实时和批量两种模式 |
|
||
| 说话人分离 | 内置 Diarization,无需 pyannote.audio |
|
||
| PII 检测 | 自动识别并标记/脱敏姓名、SSN、信用卡等 |
|
||
| 置信度分数 | 每词级别置信度 |
|
||
| 标点和大写 | 自动添加标点、自动大写句子开头 |
|
||
|
||
## Use Cases
|
||
|
||
- **快速 MVP**:不想搭建本地 Whisper 环境,直接 API 调用
|
||
- **大规模并发**:需要处理大量音频,AssemblyAI 负责扩展
|
||
- **含 PII 场景**:医疗/法律录音,内置 PII 检测减少合规负担
|
||
- **混合路由**:敏感内容走本地 Whisper,高精度需求走 AssemblyAI
|
||
|
||
## Tradeoff vs Local Whisper
|
||
|
||
| 维度 | AssemblyAI | FasterWhisper(本地) |
|
||
|------|-----------|---------------------|
|
||
| 成本 | $0.005-0.02/分钟 | GPU 折旧成本 |
|
||
| 延迟 | 取决于音频长度 | 取决于 GPU |
|
||
| 隐私 | 数据离开本地 | 完全本地 |
|
||
| 自定义 | 有限 | 完全可控 |
|
||
| 离线支持 | 无 | 有 |
|
||
|
||
## Connections
|
||
- [[FasterWhisper]] — 本地 ASR 替代方案
|
||
- [[pyannote.audio]] — 如果用 AssemblyAI 则无需独立安装
|
||
- [[PIIRedaction]] — AssemblyAI 内置 PII 检测,减少额外管道阶段
|
||
|
||
## Sources
|
||
- [[engineering-voice-ai-integration-engineer]]
|