研究音频的本质，详解各个音频格式的区别

art2500 · 发表于 2003-8-9

研究音频的本质，详解各个音频格式的区别
本帖子总共分为5个部分，分别是wav格式的介绍，有损格式的介绍，无损压缩格式的介绍，各音频格式的频谱分析，以及基于分析在音频文件选择上做的推荐
1.wav音频格式的三大参数，及各参数对于音频文件的含义
wav文件有4个参数，分别是采样频率，声道数，量化位数，以及码率共4个
而这4个参数里最好理解的就是声道数，所以不对此参数进行介绍
那么我将要介绍的参数就是采样频率F，量化位数B，和码率R
采样频率
在三个参数里面最重要的是采样频率，后面两个参数都是基于在传输存储过程中根据要求而得到的，唯独采样频率，它是把模拟世界的信号带到数字世界的桥梁。
在讲采样频率前，我们可以先回忆一下我们初中时学抛物线时的情景。
在初中时，老师教我们画抛物线时，是用什么方法画的？？
如果大家回想起来的话，就应该记得，是5点法。
是的，用5个点就可以近似的把抛物线给画出来。
音频信号是啥米，其实是余弦波，只是这个余弦波的频率和幅值都是随时间的变量而已。
我们要对这个音频信号进行记录，不可能把每一时刻的值都记录，但是，我们可以参考画抛物线的方法，用尽量少的点去精确的描绘这个音频信号。
而采样频率，它干的就是这个活，也就是一秒内我们要记录这个音频信号多少个点，就能近似精确的表达这个音频信号。
在信号处理，有这么一个定理，叫奈奎斯特定理。
这个定理怎么得来，你们不用知道，这个是信号处理专业的人才需要知道，例如我。
我们只需了解的是，这个定理它告诉我们，如果我们要精确的记录一个信号，我们的采样频率必须大于等于音频信号的最大频率的两倍，记住，是最大频率。
也就是

F>=2*fmax。
而在wav格式里，F=44.1kHz。
我们知道，人耳的听音频率范围是20-20kHz，也就是说，如果我们要精确记录这个音频信号，采样频率最低起码是40kHz。
至于为啥是44.1kHz而不是其他的频率，对不起，我也不知道。
不过，起码我们能确定的是44.1kHz这个采样频率，可以精确记录小于22.05kHz的音频信号，这个是足够了。
量化位数
虽然有了采样频率，我们可以精确记录音频信号，然而，这些记录过的音频信号是模拟量，对于计算机而言，是无法处理的。
讲到这里，我们会出现一个新的概念，模拟量和数字量。
模拟量和数字量是有区别的，我简单的介绍一下。
例如0-1这个范围。
一个线段内我们可以任意的取一个点，这个点的值可以确定，这个点的取值范围可以确定，唯独这个点的可取值的个数无法确定，这就是模拟量。
一个可能取值个数无法确定的量，计算机是无法处理的。
而数字量则是其余一样，第三点不一样，可取值的个数是可以确定的，这样，计算机可以处理了。

0-1这个范围，根据精度要求，我们可以确定需要取值的个数。
而量化位数，这是干这活，确定音频信号的一个记录点，它的取值的可能个数。
我们知道，wav的量化位数B是16，这个是一个2进制的位数。
他告诉我们，一个记录点可以取值的个数是2的16次方，也就是65536。

0-1-平分65536次，我想，这个精度也是够了。

realtek · 发表于 2003-8-9

码率
现在，采样频率和量化精度都讲了，轮到码率，先喝口水先。
码率是怎么得来的？非常简单，就是采样频率X量化位数X声道数，也就是R=F*B*2。
R=44.1kHz*16b*2=1411.2kbps~=1411kbps。
码率1411就是这么得来的，虽然码率是通过计算得到，但是，他却有一个确切的含义，就是一秒内它能存储的信息量，记住是信息量。

讲到这里，大家可能会联想到，MP3的320kbps，aac的512kbps，无损压缩格式的700+kbps。

然后有人疑惑，是不是，码率越大就越好？？

对于有损格式而言，那么，码率越大是越好
然而，这里有一个前提，被转换的歌必须是从正版cd刻录下来的无损格式，并且转换是同一种有损格式，例如都是MP3。

不然，你用一个128kbs的MP3的歌转成320kbps码率的MP3，音质是不会有改善的。

对于无损压缩格式而言，码率的大小比较将没有意义。码率的大小只是告诉你，他的压缩算法是否足够好而已。

不过，我得提醒一句，这个码率的意义也就这样，他不能告诉你，这些保存的信息是好是坏，他只能告诉你，他存了这么多信息而已。
是的，他其实是一个仓库，他不管仓库里放的啥，他只管放满没。
好了，到此，wav格式的三大参数都讲完了，也许会有很多人疑惑，为啥我先讲wav这个这么古董的格式，而不是MP3啊aac啦这些有损格式，或者flac、ape这些无损压缩格式。理由很简单，因为wav是最接近模拟量的数字量，是最原始的数据，后面的格式都是基于wav根据自己的特色进行处理而已。而且，上面讲到的三个参数，后面的格式依然用到。自然，先把wav这个老大先介绍咯
2.有损格式的压缩原理
在这部分里以及后面的无损格式压缩原理，我不专门对某个格式讲行介绍，而是介绍，这些格式是基于什么理念得到。
当我们了解wav格式三大参数的含义后，可能有人会疑惑，既然wav是最接近模拟量的数字格式，为啥还整来后面的有损格式和无损格式呢，直接wav多好啊。
是的，直接wav很好，然而，他的码率太大了。1411kbps，啥米概念，就是说一个10秒的音频，居然要用到3.36MB去存储！！！、
在过去存储技术不发达的年代，这个量太大了，让人无法接收。
因此，必须压缩，必须把没用或者不重要的信息给去掉减少存储量。
因此，有损格式诞生了。
那么，有损格式又是基于什么原理得到的，接下来就是我将要讲的内容。
对于一个音频信号而言，他是一个时间相关的信号，也就是说，前后两个记录点，他们有时间上的顺序。
然而，对于计算机而言，处理与时间相关的信息，这个不是强项。因此，必须对这个两个记录点的信息进行变换，变换成对时间顺序无关，彼此是独立的一个信息。
在这里，感谢早期那些数字信号处理的科学家，他们提供了这么个方法，就是快速傅里叶变换，简称FFT。
我们不需知道FFT是怎么来的，我们只需知道，一个信号经过FFT变换后，这个信号变成与频率相关的信息，而频率相关的信息，是可以被计算机处理。
我们可以回想一下，音频信号是一个个余弦波，处理一个余弦波无非是处理频率、幅值，初相角。
初相角我们不管，幅值和频率这个在经过FFT变换之后，就可以处理了。
经过FFT变换之后，如果用图来表示，就是频谱图。

大漠 · 发表于 2003-8-16

这个频谱图的横坐标就是频率，纵坐标是对应频率的增益，或者理解成强度也行。
对于人耳而言，我们接受的音频信号大部分都集中在中低频部分，高频部分我们相对不是那么敏感。
既然这样，我们就可以把不敏感的高频部分，直接去掉，这样，就减少了信息量，这是方法之一。
还有另一个，对于音频信号而言，相邻的几个记录点，他们的取值范围是非常接近的。
既然非常接近，我们可以用一个平均值，以及取这个平均值的点的个数来记录。
举个例子，有5个记录点，0.45 0.446 0.461 0.45 0.447，我们可以用0.45（5）来记录。
这样，记录的信息量同样少了，其实还有其他压缩方法，但是，大概的意思是和上面两种方法差不多，就不介绍了。
通过各种手法，我们把不需要的信息去掉，把不重要的信息用近似值代替，从而达到有损压缩。、
同样用码率这个参数做对比。
同样一个10秒音频，经过有损压缩后，其码率值为320kbp，则大小才787KB！！！为wav格式的五分之一！！！
用尽量少的数据，存储尽量多有用的信息，有损格式做到了！！！这也是为啥有损格式流行起来的原因。
3.无损压缩格式的压缩原理
随着存储技术的发展，我们可以存储的信息量变得越来越大，存储wav格式变得毫无鸭梨了。
既然毫无鸭梨，为啥要推出无损压缩格式？
理由很简单，既然我40MB可以存储2首无损压缩格式，为啥我还存储1首wav格式，这不是跟自己过不去嘛。
所以，无损压缩格式发展起来了。
无损压缩格式和有损格式有个共同点，就是压缩。不同点是，无损。
那么，要怎么才能做到无损压缩呢，我们可以参考有损压缩的第二个方法。
举个例子，同样是5个记录点，0.4 0.4 0.5 0.5 0.3，如果要无损压缩，我们只需这样记录0.4（2），0.5（2），0.3（1）。
这样，我们只需用三个记录点，就能记录原来需要5个记录点，同样压缩了。
而且，做到无损压缩。这是其中一种思路，但是，他告诉我们，无损压缩对于信息处理而言，是可以做到的。
要完整记录一个音频，不需用到wav格式，无损压缩就行了。
同样用码率这个参数做比较，一个10秒音频，经过无损压缩后，码率值为727kbps，大小为1.73MB。大概为wav的一半。
大容量播放器支持无损压缩格式，小容量播放器则玩转有损格式，各有各的位置，技术发展确实是一件好事啊

经常见到有人问wav、flac和ape是不是有区别，那么我就在这里做个总结。
经过上面的算法原理介绍，我们可以了解到，如果单纯从文件本身，wav和其他所有无损压缩格式在保存的信息上是无区别的。

在论坛上，经常会看到有人问无损格式相关的两个问题：无损压缩格式之间有没有区别和无损压缩格式与wav有没有区别。

第一个问题，我现在就可以回答，有。

但，区别不是在信息记录的完整程，而是其压缩算法以及算法所采用的格式的区别。

这也是为啥，同一首歌，ape格式比flac小，因为算法不同。

至于音质表现将会和第二个问题一起，在第五部分讲到

唯老不尊 · 发表于 2003-12-27

4.音频文件频谱分析
这一部分是对不同的音频格式以及同一音频格式不同的码率进行分析。
专门为那些选择哪种音频格式而烦恼的人提供参考的。
待分析的音频格式有MP3，aac三种格式，无损格式作为参考格式。
由于本人用fb转换，MP3格式只有vbr模式和最高的cbr320。所以，可能与大家熟悉的码率有所不同。
不过，我用括号标明了其对应的码率值，是个大概值，不一定准，不过可以参考。
MP3的码率有VBR的V5（~130kbps）V2（~190kbps）V0（~245kbps）和CBR的320kbps。
为了对应MP3的VBR模式，aac同样采用VBR模式
aac的码率有，q04（125kbps）q05（175kbps）q06（225kbps）q08（325kbps）q10（400bps）
之所以这么选择，是因为大家习惯的码率值有128kbps 196kbps 256kbps 和320kbps。

在选择MP3的转换模式时其参考码率尽量靠近习惯码率值。
因为aac在编码上比MP3优秀得多，所以aac的转换模式是转换后的文件体积大小尽量接近MP3大小。
至于来个q10模式，则是与无损压缩格式做对比的。
先来张各音频格式与对应码率的文件体积对比图

事先说明，该音频文件截取的是eason的十年（40s-60s）这段范围，用的是网上下载的无损，截取软件用goldwave。
先来个体积分析。
显然，这里体积最小的是V5MP3（130kbps），对应是的q04aac（125kbps）。
第二档次是V2MP3（~192kbps）对应q05aac（175kbps）。
第三档次是V0MP3（245kbps）对应q08aac（225kbps）。
第四档次是cbrMP3（320kbps）与对应的q08aac（325kbps）。
最后是q10aac（400kbps）与对应的flac。
假设原盘是正版的，则其对应的音质档次是低级、初级、中级、高级、以及最高。
q10aac声谱图
先说明一下，横坐标是时间，纵坐标是频率，点的白色度程度是对应时间与频率的声音强度。所以叫声谱图。
通过对比，我们发现，q10aac在声音的频率再现范围与无损无差别，干到22kHz无压力。
但是声音的频率再现强度则有缺陷，在一些时间段的频率声音强度缺失

唯老不尊 · 发表于 2016-7-14

支持下！好久没进来了

帐号		自动登录	找回密码
密码			快速注册

[音频] 研究音频的本质，详解各个音频格式的区别