研讨会：32-bit浮点音频一览

snre66 · 发表于 2024-4-1

32-bit浮点音频（实际上是 32-bit浮点音频）引起了很多困惑，甚至产生了更多问题。本文将为音乐家和音乐制作人介绍 32-bit浮点音频的主要特点和优势（反正音响工程师已经知道了）。

音频数据数字化意味着什么？

模拟（连续）音频信号由模数转换器 (ADC) 转换为独特的、基于时间的整数量（采样）序列。因此，每秒记录采样的频率也称为采样率或采样率，它决定了可以记录的最大频率。根据香农/奈奎斯特定理(Harry Nyquist)的数学基础，采样率必须是要记录的最高频率的两倍，才能将其清晰地再现，即将其转换回连续信号。因此，最高频率为 24,000 Hz 的信号可以每秒 48,000 次的采样率采集。高于此值的频率会被内置的频带限制功能过滤掉
32-bit-floating-audio-report-adc-quantisierung-730x411.jpg

32-bit-floating-audio-report-adc-quantisierung-730x411.jpg

ADC - 信号数字化和量化噪声（将实数（模拟）转换为整数位值（数字）时的舍入误差）。

在数模转换过程中，数模转换器中的重构滤波器会根据这些时间分隔值生成一条电压曲线，从而生成音频信号。阶梯图经常被错误地引用来表示数字化，它是一种特殊的 "工程符号"，目的是让自己的生活更轻松。从根本上说，它并没有错，但如果不加以注释，就会导致对数字音频质量的误解。没有 "阶梯"，只有单个值的时间序列，并由此形成一条渐进曲线。
32-bit-floating-audio-report-zero-hold-order-xiph-org-730x411.jpg

32-bit-floating-audio-report-zero-hold-order-xiph-org-730x411.jpg

零滞后："阶梯 "是由代表单个值之间时间跨度的水平线形成的。然而，这只是一种表现形式，只能说明数字 "音频质量 "与模拟 "音频质量 "的比较。

在 DAC 转换过程中，数据点会生成一条连续的模拟电压曲线--另一方面，其跟踪精度也能说明音频质量的一些问题。

所有这一切与 16、24 或 32-bit音频完全无关，因为每秒记录的采样数量和它们各自的数量是两个独立的变量。被称为字宽、采样深度或比特深度的数量决定了 ADC/DAC 的动态范围。

定点音频格式
最常见的音频数据是 16-bit（CD 音频）、24-bit和 32-bit "定点"、定点运算。这意味着采样具有唯一的整数值。由于 1 位（二进制值）可以有两种状态，即 "0 "和 "1"，因此不同的值可以用不同的位状态来表示。最大值为（PWR = 幂 = 数学指数）

8 bit = 2 PWR 8 = 2*2*2*2*2*2*2*2*2 = 256 个状态，= 十进制 0 ... 255
16-bit（"CD 格式"）= 2 PWR 16 = 65,536 个状态，= 十进制 0 ... 65,535
24-bit = 2 PWR 24 = 16,777,216 个状态 = 十进制 0 ... 16,777,215
32-bit = 2 PWR 32 = 4,294,967,296 状态 = 十进制 0 ... 4,294,967,295
这里显示的最高数字是 0 dBFS 线（dB满刻度）。

然而，由于音频信号在物理上是具有正负振幅的振荡信号，因此第一个 1 位被用作符号。在 24-bit的情况下，十进制为 +/-8,388,608 位，但这些表示的数量是相同的。+/-用来更好地表示音频信号的振荡。

由于每增加一位，可表示的状态/值的数量就会增加一倍，这可以与物理世界中音频信号的音量大约每 6 dB（dB）增加一倍这一事实进行线性分配（尽管背后的数学并不那么微不足道）。

因此，下面的映射适用（数字是四舍五入的，因为不完全是 6 dB）：

16（bit）* 6 dB 对应 96 dB 动态范围
24（bit）* 6 dB 对应 144 dB 动态范围
32（bit）* 6 dB 对应 192 dB 动态范围
在数字音频处理中，假定最大值为 "FS"（满量程），然后反向计算为零。在 0 dBFS 时，所有可显示的比特状态都已耗尽。在实际应用中，这意味着可用的比特越多，数字信号在被格式固有的本底噪声淹没之前就越安静。此外，转换器的内部抖动（插入噪声以抵消量化噪声和谐波失真）会损失约 3 dB。

有趣的事实：在大约 65 dB以下，人耳认为声音 "正常响亮"；从 85 dB开始，一般认为声音对健康有害；从 130 dB开始，听力不可避免地受损；从 170 dB开始，气压波的力量变得如此之大，以至于产生致命影响。

32-bit音频转换
32-bit模数转换器/数模转换器的定点转换由来已久，它是通过串联每个通道的两个 24-bit转换器来实现的，其中一个记录较安静的区域（32-bit中的低 24-bit），另一个记录较响亮的区域（32-bit中的高 24-bit），然后将两个信号合并。这种互连方式会略微增加背景噪声的总体水平。例如，新的 Apogee Groove Anniversary DAC 也采用了这种 4 芯片配置，即使是小型的 Steinberg UR22C 也能以这种方式进行 32-bit转换。

这种定点转换也适用于 "32-bit浮点 "接口，这种接口在转换后只将数据直接保存为 32-bit浮点音频格式，例如 Tascam Portacapture X8、Zoom F 系列或 Sound Devices MixPre 系列。目前还没有直接进行 32-bit浮点 ADC/DAC 转换的硬件解决方案。

Tascam Portacapture X8

32-bit浮点音频格式
32-bit浮点音频处理也不是什么新鲜事。早在 1985 年，IEEE 754 公约就定义了相关程序。在 2000 年代之前，Pro Tools LE 等音频编辑软件的混音引擎就具有这种分辨率，而几年后，Cocko 的 Reaper 也能提供（可选的）64 位浮动。对于定点音频格式来说，位值到dB的映射很容易理解（见上文），但对于浮点格式的音频来说就要复杂得多。与定点音频不同，这里的采样代表介于 -1 和 + 1 之间的浮点数值；超过 0 dBFS 标记的数值被称为 "余量"。

每个浮点采样由三个部分组成：尾数 m（小数位）、指数和符号。对于由 32-bit组成的浮点音频来说，第一位是符号（+/-），然后是 8 位指数，接着是 23 位尾数（小数位）。用非计算机术语来说，就是

+/- 1 位小数点[23 bit数值]，8 bit指数。

因此，最大值为 +/-1.8388608 PWR -126/+127

由于位值为 "00000000"（-127）的指数无效，而 "11111111"（128）保留给了 "无穷大"（周期），因此剩下的 254 个值被定义为 -126 至 +127 的范围。

小数点前的 "1 "被称为 "幽灵位 "或 "隐藏位"，因为它不会显示，因为它的值必须始终为 "1"。这是由于 IEEE 754 的定义，其中尾数 "m "在 1 ≤ m < 2 的范围内归一化，以防止数学上完全相同的数的表示变异，即提供无歧义的结果。

这里唯一重要的是，使用 32-bit浮动音频，可以表示 1,528 dB 的动态范围，分为 -758 dBFS 和 +770 dBFS。然而，并非整个区域都可以使用。

这里的问题在于指数。指数越大，数字越不精确，因为四舍五入误差会增加，进而表现为噪音。这些舍入误差有点像 DSP（数字信号处理器）的行为。DSP 的设计目的是在特定时间点提供可接受的精确结果，粗略地说，"2 x 2 "可以介于 "3.5 "和 "4.4 "之间。

UAD 音频接口、Eventide H3000 至 H8000、Lexicon、Bricasti 或 Quantec 混响器等设备中都使用了 DSP，这些设备的使用者都对其美妙的 "模拟 "或至少是 "高贵 "的音质信誓旦旦。因此，在音乐上，不精确并不一定是坏事。

但是，如果这些音量永远无法用物理方式表现出来，那么这一切又有什么意义呢？

32-bit浮点作为音频格式和效果处理
定点音频格式的一个优点是，信号越小，信噪比越小。信噪比越小，音乐效果就越差，即噪声相对于信号会变得更大。

根据该格式固有的特点，定点音频的信噪比至少为 -80 dBFS

16-bit时信噪比约为 15 dB
24-bit时信噪比约为 60 dB
32-bit时信噪比约为 110 dB
最大可能的信噪比是上面指定的相应动态范围。

然而，对于 32-bit浮点音频，由于尾数的标准化，无论音量大小，信噪比始终在 -155 和 -144 dBFS 之间波动！相比之下，一个信号为 -80 dBFS 的 24-bit音频文件的信噪比至少要低 84 dB。这一点很重要！

归根结底，32-bit浮动音频在音乐领域的应用并不是为了更好地记录大音量信号，而是能够记录安静的信号，因此无需额外的前置放大即可记录更多微妙的信号，而前置放大不可避免地会增加背景噪音。

一般来说，当通过后处理缩放音量时，与定点音频相比，32-bit浮点音频格式对于背景噪声的伴随增加表现得更加稳健。

另一个优点是净空高度。当定点音频停止在 0 dBFS 时，对于 32-bit浮点音频格式（根据定义），计算机内部仍然留有很多值来表示高于 0 dBFS 的动态范围。这意味着，只要软件的处理算法（这里特别注意效果插件）以 32-bit浮动实现，就不再可能剪辑可用于音乐的信号（“切断”幅度峰值），超出最大值 0 dBFS）。

缩放 F6

如果一个插件只能处理 24 个定点音频数据，那么 32-bit浮点的优势充其量也是非常有限的，许多插件通常希望输入电平小于 -14dBFS。这就限制了 32-bit浮点音频格式在处理过程中的作用。因此必须小心谨慎。

作为一种传输格式，例如用于音乐出版和其他媒体（电影、电脑游戏等）的传输格式，32-bit浮动音频与 24-bit音频格式相比没有任何优势，因为 24-bit的动态范围对于任何形式的音乐演示或媒体产品来说都是绝对足够的。这在技术或科学领域可能有所不同，但在这里无关紧要。

DAW 中的 32-bit浮动混音引擎
原则上，DAW 混音引擎的采样深度不可能足够大。如果将两个格式相同的音轨混合在一起，就会丢失半个比特的动态信息。如果使用固定的 16-bit混音引擎，很快就会走到尽头，因为 8 个音轨的动态范围已经下降到 12 bit采样深度，这还没有考虑到由于背景噪声、避免削波和采样间峰值保护距离（当单个采样值不超过 0 dBFS，但 DAC 产生的电压曲线超过其可产生的最大音量 = 失真）而造成的进一步损失。在任何情况下，结果都不是高保真的。

即使是固定的 24-bit或 32-bit混音引擎，也会很快在此出现问题。另一方面，有了 32-bit浮动音频，可混音音轨的质量上限就不再与音频实践相关，再也没有哪个 DAW 不能处理至少 32-bit浮动音频了。

上述 32-bit浮点的本底噪声波动和舍入误差是否会在 DAW 中或混音过程中造成问题，这一点还有待商榷。是的，在某些情况下，它是明显的，32-bit浮点混音引擎并不是最终的答案，否则就不会有 64 bit浮点音频的选择了。例如，即使是 Pro Tools TDM 的老用户也发誓，使用 48 bit定点混音引擎的混音效果要好于使用 32-bit浮点引擎的混音效果。但总的来说，32-bit浮点混音引擎的优点明显多于缺点，但在质量上也是最低的。因此，如果有条件，DAW 项目应该使用更好的混音引擎。所用音频数据的比特深度和采样率并不重要。

Avid 专业工具
现实世界中的 32-bit浮点音频
由于数字音频信号在物理世界中必须有多 "响亮 "并不存在令人信服的物理联系，因为它只是一个数字，因此 ADC/DAC 转换器实际上可以从这个数字（D/A）产生任何电压，或将电压转换成任何数字（A/D）。这只是一个校准问题。

因此，在音频行业，国际上一致认为 0 dBu（"u"="空载"，即不考虑阻抗）的电子测量音量值对应于 0.775 伏特的电子电压。这是制造商使用的参考值。因此，各种音频设备都能输出-10 dBu（0.244948974 V RMS）的输出电压供 "家庭使用"，而+4 dBu（1.227652988 V RMS）则是专业录音室设备的输出电压。虽然各种跨国标准对 100 % 电平标记的定义不同，但测量方法与此无关，因此技术规格具有可比性。因此，如果将 +20 dBu 的模拟信号输入到只能处理 +15 dBu 信号的设备中，后者显然会出现过载、失真或剪切。相反，我们谈论的是净空，如果目标设备是均衡器等，那么在信号失真之前，你可以增加高达 +5 dBu 的增益。

然后对 DAC 进行校准，使其在 0 dBFS 时输出最大电气 dBu 电压。不过，这仍然与功率放大器的额外电放大和扬声器产生的声压（最终到达我们的耳朵）无关。为了避免对健康造成损害，还需要进一步的测量准则。对于 ADC，最大 dBu 输入电平在转换过程中校准为 0 dBFS。

不在录音时，这也意味着你可以随意使用更多比特进行模数转换，但上游模拟话筒、前置放大器、压缩器、均衡器、混响器等的电气限制仍然存在，无法绕过。如果麦克风最多只能承受 100 dB 的声压，那么即使使用 32-bit浮动音频，也无法录制 120 dB 的信号。举例来说，如果模拟效果器的本底噪声为 10 dB，动态范围为 85 dB，那么模拟数字转换器（如 Sound Devices MixPre）最多 142 dB 的动态范围也不会改变这一点。

在这里，32-bit音频录音仅仅意味着信号源的全部动态范围都可用于音频应用，而无需放大，即不会额外引入噪音或因限制而损失动态效果。

例如，在实际应用中，在管弦乐录音中使用 32-bit AD 转换器时，可以使用相同的电平设置录制管弦乐录音中的三角音和紧接着的渐强音调，而不会使后者过载。或者录制雷雨时的雨滴声，而不会被雷声破坏录音。简而言之，32-bit录音在预期会出现一连串不可预知的非常安静和非常响亮的信号时总是非常有用的，换句话说，几乎所有使用麦克风进行现场录音的情况都是如此。当然，前提是不超过麦克风、前置放大器等的物理和电气规格。

32-bit音频不会超越声学规则或麦克风的指向特性。一切都没有改变，只是录音电平的调整变得更加容易，你不必再为这个问题而烦恼--16-bit录音的情况就是如此，至少可以说这一直是个麻烦事，如今也没有任何理由再主动这样做了，因为这样做只会带来不利。

然而，使用 24-bit，你可以轻松地将最响亮的信号调平至 60%，并且只有在极端情况下，你才会遇到削波或背景噪声的问题。在这种情况下，32-bit比较合适。

出处：https://www.amazona.de/workshop-32-bit-float-audio-im-ueberblick/

帐号		自动登录	找回密码
密码			快速注册

[音频] 研讨会：32-bit浮点音频一览

相关帖子