nexus/wiki/entities/AssemblyAI.md at b40abbcd473a7093d8261e212e3d6de97c1e516a - nexus - Gitea: Git with a cup of tea

ishenwei/nexus

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

1.8 KiB

Raw Blame History

title, type, tags, sources, last_updated

title

type

tags

sources

last_updated

AssemblyAI

entity

asr

cloud-api

speaker-diarization

pii-detection

engineering-voice-ai-integration-engineer

2026-05-02

Aliases

AssemblyAI

Definition

AssemblyAI 是一个云端自动语音识别（ASR）服务 API，通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一，适合需要快速集成或大规模处理的场景。

Key Capabilities

功能	说明
语音转文字	多语言支持，实时和批量两种模式
说话人分离	内置 Diarization，无需 pyannote.audio
PII 检测	自动识别并标记/脱敏姓名、SSN、信用卡等
置信度分数	每词级别置信度
标点和大写	自动添加标点、自动大写句子开头

Use Cases

快速 MVP：不想搭建本地 Whisper 环境，直接 API 调用
大规模并发：需要处理大量音频，AssemblyAI 负责扩展
含 PII 场景：医疗/法律录音，内置 PII 检测减少合规负担
混合路由：敏感内容走本地 Whisper，高精度需求走 AssemblyAI

Tradeoff vs Local Whisper

维度	AssemblyAI	FasterWhisper（本地）
成本	$0.005-0.02/分钟	GPU 折旧成本
延迟	取决于音频长度	取决于 GPU
隐私	数据离开本地	完全本地
自定义	有限	完全可控
离线支持	无	有

Connections

FasterWhisper — 本地 ASR 替代方案
pyannote.audio — 如果用 AssemblyAI 则无需独立安装
PIIRedaction — AssemblyAI 内置 PII 检测，减少额外管道阶段

Sources

engineering-voice-ai-integration-engineer