VOD 流媒体技术全解 · 第 3 / 12 章
本章你会理解:声音怎么变成数字、采样率/位深是什么、声道/立体声/5.1 的含义、AAC 为什么是流媒体首选。
预计阅读时间:12 分钟
声音本质是空气的振动,是一条连续变化的波形:
电脑只能存数字,不能存连续波形。所以要做两件事:
1. 采样(Sampling):每隔一小段时间,测一次波形的高度
2. 量化(Quantization):把测到的高度数字化
单位:Hz(赫兹,每秒多少次)
常见采样率:
| 采样率 | 场景 |
|---|---|
| 8 kHz | 电话语音 |
| 16 kHz | 语音识别、VoIP(Zoom/Teams) |
| 22.05 kHz | 老游戏、AM 收音机 |
| 44.1 kHz | CD 唱片、音乐首选 |
| 48 kHz | 视频领域默认(电影、流媒体、广播) |
| 96 kHz | 高保真录音 |
| 192 kHz | 专业录音室 |
💡 奈奎斯特定理:要还原频率 F 的信号,采样率至少要 2F。人耳能听到的频率上限大约 20 kHz,所以 44.1/48 kHz 刚好够(还留有一点余量)。
📌 VOD 音频统一用 48 kHz。如果你有 44.1 kHz 的源,转码时用 -ar 48000 重采样。
每个采样点用几个 bit 存它的"高度":
| 位深 | 能表达的响度级数 | 场景 |
|---|---|---|
| 8 bit | 256 级 | 老游戏、电话 |
| 16 bit | 65,536 级 | CD、消费流媒体 |
| 24 bit | 约 1700 万级 | 专业录音 |
| 32 bit 浮点 | 天文数字 | 音频制作内部格式 |
大多数视频里音频都是 16-bit 48 kHz。
声道 = 有几条独立的声音轨。
| 声道 | 英文 | 配置 | 用途 |
|---|---|---|---|
| 1.0 | Mono | 单声道 | 电话、老电视 |
| 2.0 | Stereo | 左 + 右 | 音乐、大部分视频 |
| 5.1 | 5.1 surround | 前左+中+前右+后左+后右+低音(.1 指低频炮) | 电影院、家庭影院 |
| 7.1 | 7.1 surround | 5.1 + 两个侧向 | 顶级家庭影院 |
| 7.1.4 | Atmos 等 | 7.1 + 4 个天空声道 | 杜比全景声 |
音频码率也是每秒 bit 数。视频码率是几 Mbps,音频码率是几十到几百 kbps,只占视频码率的 5-10%。
| 码率 | 听感 | 场景 |
|---|---|---|
| 32 kbps | 能听清语音、音乐破破的 | 极低带宽 |
| 64 kbps | 语音清晰、音乐勉强 | 低码率场景 |
| 96 kbps | 音乐尚可 | 广播、YouTube 默认 |
| 128 kbps | 音乐好听 | 流媒体默认 |
| 192 kbps | 高保真 | 高质量音乐 |
| 256 kbps | 发烧级 | Apple Music |
| 320 kbps | MP3 最大 | 音乐爱好者 |
| 无损 FLAC | 透明 | 发烧 HiFi |
📌 VOD 视频配音频:立体声 128 kbps AAC 是绝大多数场景的正确答案。
• 由谁:MPEG(同 H.264 的组织)
• 年份:1997
• 兼容性:所有视频平台、浏览器、手机都支持
• 变体:
- AAC-LC(Low Complexity):最常用,HLS/DASH 默认
- HE-AAC(High Efficiency):低码率下更好(64 kbps 以下)
- HE-AAC v2:HE-AAC + 参数化立体声,48 kbps 下依然不错
📌 绝大多数 VOD 项目,音频用 AAC-LC、48 kHz、立体声、128 kbps,就完事了。
• 经典但效率低于 AAC
• 2017 年原始专利到期
• 新项目没理由再用 MP3
• 开源、免版税
• 从 6 kbps(语音)到 510 kbps(音乐)都表现优秀
• WebRTC 默认、Discord 使用
• 但 HLS/DASH 兼容性不如 AAC,iOS/Safari 支持有限
| 编码 | 用途 |
|---|---|
| AC-3(Dolby Digital) | 5.1 声道、蓝光、老 HDTV |
| E-AC-3 / DD+(Dolby Digital Plus) | 5.1 / 7.1,流媒体电影 |
| Dolby Atmos(基于 E-AC-3 + JOC 或 AC-4) | 全景声,顶级平台 |
💡 Dolby Atmos 在 Netflix、Disney+、Apple TV+ 是高价值订阅的标志。
无损压缩,只能减小 50%-70%,但完全还原原始 PCM。用于:
• Apple Music 无损档
• 音乐发烧友
• 视频领域基本不用(码率太大)
一个视频文件里可以装多条音轨:
流媒体协议(HLS/DASH)支持独立分发音轨,播放器可以只下载用户选中的语言。
对应的 HLS manifest 配置大致如下:
详见第 5 章:流媒体协议。
你一定遇到过:切到广告音量突然变大。这是因为不同内容的"响度"差别很大。
响度标准化是按感知响度(不是峰值音量)统一各内容的响度水平。
| 标准 | 目标响度 | 用途 |
|---|---|---|
| EBU R128 | -23 LUFS | 欧洲广电 |
| ATSC A/85 | -24 LUFS | 北美广电 |
| Apple Music / Spotify | -14 LUFS | 流媒体音乐 |
| YouTube | -14 LUFS | 默认 |
| 短视频/移动端 | -16 ~ -14 LUFS | 手机小喇叭上下限 |
LUFS(Loudness Units Full Scale)是国际标准的感知响度单位。
🛠️ ffmpeg 做响度标准化:
🛠️ 动手试一试。
典型输出:
参数解释:
• -c:a aac:音频编码 AAC
• -b:a 128k:码率 128 kbps
• -ar 48000:采样率 48 kHz
• -ac 2:声道数 2(立体声)
• -c:v copy:视频不动、直接复制(节省时间)
✦ 本章要点回顾
1. 声音数字化需要采样率(时间轴密度)和位深(幅度精度)。
2. VOD 默认采样率 48 kHz、位深 16-bit。
3. 消费流媒体默认声道立体声(2.0),电影级用 5.1 / Atmos。
4. AAC-LC 128 kbps 是 VOD 项目的默认音频设置。
5. 一个视频文件可以带多条音轨(多语言)。
6. 响度标准化(EBU R128 / -14 LUFS)能避免"切广告就变吵"。
© 2026 Zmead · VOD 流媒体技术全解