Files
nexus/wiki/entities/AssemblyAI.md
2026-05-03 05:42:12 +08:00

50 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "AssemblyAI"
type: entity
tags: ["asr", "cloud-api", "speaker-diarization", "pii-detection"]
sources: ["engineering-voice-ai-integration-engineer"]
last_updated: 2026-05-02
---
## Aliases
- AssemblyAI
## Definition
AssemblyAI 是一个云端自动语音识别ASR服务 API通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一,适合需要快速集成或大规模处理的场景。
## Key Capabilities
| 功能 | 说明 |
|------|------|
| 语音转文字 | 多语言支持,实时和批量两种模式 |
| 说话人分离 | 内置 Diarization无需 pyannote.audio |
| PII 检测 | 自动识别并标记/脱敏姓名、SSN、信用卡等 |
| 置信度分数 | 每词级别置信度 |
| 标点和大写 | 自动添加标点、自动大写句子开头 |
## Use Cases
- **快速 MVP**:不想搭建本地 Whisper 环境,直接 API 调用
- **大规模并发**需要处理大量音频AssemblyAI 负责扩展
- **含 PII 场景**:医疗/法律录音,内置 PII 检测减少合规负担
- **混合路由**:敏感内容走本地 Whisper高精度需求走 AssemblyAI
## Tradeoff vs Local Whisper
| 维度 | AssemblyAI | FasterWhisper本地 |
|------|-----------|---------------------|
| 成本 | $0.005-0.02/分钟 | GPU 折旧成本 |
| 延迟 | 取决于音频长度 | 取决于 GPU |
| 隐私 | 数据离开本地 | 完全本地 |
| 自定义 | 有限 | 完全可控 |
| 离线支持 | 无 | 有 |
## Connections
- [[FasterWhisper]] — 本地 ASR 替代方案
- [[pyannote.audio]] — 如果用 AssemblyAI 则无需独立安装
- [[PIIRedaction]] — AssemblyAI 内置 PII 检测,减少额外管道阶段
## Sources
- [[engineering-voice-ai-integration-engineer]]