ishenwei/nexus

Files

weishen 111bc65b7b Update nexus wiki content

2026-05-03 05:42:12 +08:00

1.6 KiB

Raw Blame History

title, type, tags, last_updated

title

type

tags

last_updated

EBUR128LoudnessNormalization

concept

audio-processing

loudness

ffmpeg

ebur128

2026-05-02

EBUR128LoudnessNormalization（EBU R128 响度归一化）

Definition

EBU R128 是欧洲广播联盟制定的响度归一化标准，用于确保不同来源的音频具有一致的感知响度。在 Whisper 类转录模型管道中，R128 归一化确保输入音频响度稳定，避免因音量差异导致的精度下降。

Standard Parameters

-af "loudnorm=I=-16:TP=-1.5:LRA=11"

参数	含义	标准值
`I`	综合响度（Integrated Loudness）	-16 LUFS
`TP`	真峰值（True Peak）	-1.5 dBTP
`LRA`	响度范围（Loudness Range）	11 LU

Why -16 LUFS?

广播标准（TV/Streaming）：-24 LUFS（旧标准）→ -16 LUFS（新趋势，Netflix/YouTube）
Podcast/对话内容：-16 LUFS 更适合语音主导的内容
过高的综合响度（>-14 LUFS）会导致语音压缩失真

Pipeline Context

原始音频 → 格式检测（ffprobe）→ EBU R128 归一化 → 重采样至 16kHz → 单声道

Why It Matters for Whisper

Whisper 对响度变化不免疫。同一段语音，-30 LUFS 的录音和 -16 LUFS 的录音，后者的WER（Word Error Rate）更低，因为响度归一化降低了动态范围，减少了模型在处理软/响片段时的注意力分散。

VoiceActivityDetection — 归一化之后的后处理
FasterWhisper — 归一化音频的消费者

engineering-voice-ai-integration-engineer