nexus/wiki/concepts/SpeakerDiarization.md

---
title: "SpeakerDiarization"
type: concept
tags: ["voice-ai", "speech-processing", "speaker-attribution"]
last_updated: 2026-05-02
---

# SpeakerDiarization（说话人分离）

## Definition

Speaker Diarization（说话人分离）是自动识别音频中"谁在说话、何时说话"的技术。通过声纹特征聚类将连续音频划分为不同说话人的片段，并为每个片段标注说话人标签（`SPEAKER_00`, `SPEAKER_01` 等）。

## Key Properties

- **主流工具**：`pyannote.audio`（开源）、AssemblyAI 内置、Deepgram 内置
- **输入**：原始音频（或已切块的音频）
- **输出**：`[{start, end, speaker}]` 格式的说话人片段列表
- **准确度影响因素**：说话人数已知 vs 未知（已知可显著提高准确度）、音频质量、重叠语音
- **与转录的集成**：分离结果通过时间重叠与转录段落合并，产生 `TranscriptSegment`（带 speaker 标签）

## Pipeline Role

```
音频 → pyannote.audio → 说话人片段
                          ↓ 合并（时间重叠匹配）
        FasterWhisper → 转录段落
                          ↓
              带说话人归属的转录段落
```

## Related Concepts
- [[VoiceActivityDetection]] — Diarization 的前置处理
- [[StructuredTranscriptJSON]] — Diarization 结果的输出目标
- [[LLMHandoff]] — 带说话人归属的转录文本下游传递给 LLM

## Related Entities
- [[pyannote.audio]] — 主要开源 Diarization 工具
- [[AssemblyAI]] — 带 Diarization 的云端 ASR 替代方案
- [[Deepgram]] — 带 Diarization 的另一云端 ASR 选项

## Related Sources
- [[engineering-voice-ai-integration-engineer]]