Files
nexus/wiki/entities/AssemblyAI.md
2026-05-03 05:42:12 +08:00

1.8 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
AssemblyAI entity
asr
cloud-api
speaker-diarization
pii-detection
engineering-voice-ai-integration-engineer
2026-05-02

Aliases

  • AssemblyAI

Definition

AssemblyAI 是一个云端自动语音识别ASR服务 API通过 HTTP 接口提供语音转文字、说话人分离、PII 检测等功能。是 Voice AI Integration Engineer 在本地 Whisper 之外的云端 ASR 选项之一,适合需要快速集成或大规模处理的场景。

Key Capabilities

功能 说明
语音转文字 多语言支持,实时和批量两种模式
说话人分离 内置 Diarization无需 pyannote.audio
PII 检测 自动识别并标记/脱敏姓名、SSN、信用卡等
置信度分数 每词级别置信度
标点和大写 自动添加标点、自动大写句子开头

Use Cases

  • 快速 MVP:不想搭建本地 Whisper 环境,直接 API 调用
  • 大规模并发需要处理大量音频AssemblyAI 负责扩展
  • 含 PII 场景:医疗/法律录音,内置 PII 检测减少合规负担
  • 混合路由:敏感内容走本地 Whisper高精度需求走 AssemblyAI

Tradeoff vs Local Whisper

维度 AssemblyAI FasterWhisper本地
成本 $0.005-0.02/分钟 GPU 折旧成本
延迟 取决于音频长度 取决于 GPU
隐私 数据离开本地 完全本地
自定义 有限 完全可控
离线支持

Connections

Sources