声音的概念？

124462316 · 发表于 2005-6-1

声音的概念？
先和各位一起简单科普一下概念知识，声音是由物体振动产生的声波，是通过介质（空气或固体、液体）传播并能被人或动物听觉器官所感知的波动现象。一般由响度、音调及音色这么三个属性来衡量声音如何如何

响度：人主观上感觉声音的大小，由振幅和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大
音调：声音的高低，由频率决定，频率越高音调越高
音色：声音的特性，由发声物体本身材料，结构决定
上述就是声音的一个简单概念，欲知如何与我今天讲的程序中的数字音频技术相关联，请继续往下看哟

音频是啥？
我们知道声音是由物体振动产生的，当声音改变了人耳鼓膜上空气的压力时，这时人耳就听到声音了。所以我们在向麦克风说话时，麦克风设备能感应到这些振动，并且将它们转换为电流。同样，电流再经过放大器和扩音器，就又变成了声音。声音的振动可以用正弦波表示，其中波的振幅决定音量（即声音的响度），频率决定音调。人耳可以感受的频率范围是20HZ ~ 20000HZ（用分贝表示：0~120 db，二者之间如何换算这里不做说明，感兴趣的自己去科普）的，而且感受的频率变化关系是呈对数关系，并非是线性关系。也就是说20HZ到40HZ和40HZ到80HZ的变化，人耳感受是一样的。在音乐中，把这种加倍的频率定义为八度音阶（想继续了解，请自行科普），具体应用见文章最后技术拓展及应用。

计算机都本质是处理二进制数据，也就是说任何东西在计算机中的表现都是一堆二进制数值。所以计算机中的音频又叫数字音频。那么现在需要一种方法将自然界中的声音（即振动）输入到计算中进行处理，那么这种方法是什么呢？就是PCM（即脉冲编码调制，我这里说的PCM和下文中的PCM文件格式不是一回事），概括来说这种方法就可以将外界的物理声音和计算机的电信号（高低电平）之间的相互转换。所以麦克风设备实质执行的是将物理声音转换为电信号，扬声器设备实质执行的是将电信号转换为物理声音。那么计算机的电信号可以用二进制表示，即音频数据就是一堆用二进制表示的数据。至于麦克风设备和扬声器设备具体如何进行转换的，这里不做说明，如果想继续详细深挖，请自行科普噢。

既然我们知道音频数据是一堆用二进制表示的数据，那么声音其他属性如何控制（音质，音量等）。首先这里需要说明的是，控制音频的三个固有参数：采样率，通道，位深。在具体讲述三个参数前，先给一些音频属性计算公式：

采样点大小：通道 * 位深 / 8 (B/s)
样数：采样频率 (个/s)
时长：采样数 / 采样点大小 * 1000 (ms)
分贝：（db）见下图（至于如何使用计算，详情讲解见文章最后链接地址）

采样率？单位：HZ。常见的有48000，44100，22500，8000等。如果音频采样率为48000HZ，也就是说这段音频每秒有48000个采样点。采样点数量越高，声音越精确。这里直接和声音的音调属性相对应。这里说的采样频率就是上面说的人耳频率，那么为什么48000HZ人耳还可以听见？其实这里的频率和实际人耳听到频率是有出入的，因为在计算机实际处理的时候是有对应的关系（具体关系自己去科普把），导致最后的采样频率看起来远远超过人耳接受的频率范围。

通道？常见的有单通道，双通道（即立体声）。这里有一个定义容易混淆，需要说明一下（本人最开始就弄混了）。通道和声道是两个东西，通道数和音轨数对等。所以这就是为什么单通道的音频为什么左右耳机还是会有声音。通道和音轨对于波形（wav）音频，可以使用audacity软件分析，见下图（双通道的wav音频格式文件）：

初次看见这种图，是不是很蒙逼。哈哈，没关系，我在下面会具体进行说明（为什么声音是这种波形图）。还有就是我们常说的5.1声道（6通道），3D环绕（4通道），这些多通道的音频一般由专门设备和音频工具而制作。像我们常规的电脑一般只可录制单通道和通道的。不过尽管录制不了高通道声音，后期是可以通过程序计算出高声道的声音。音轨数越多，声音越有层次感。

位深？单位：b。又称量化。常见的有8位，16位，32位等。分有无符号、有符号、整型及浮点型。一般浮点型用于超过16位以上的音频，用于浮点数。量化值越大，声音的振幅范围越大，质量越高。

下面针对上述audacity软件的波形图进行简要说明。假设现在分析的一段采样率为48000HZ，2通道，16位深的有符号音频，我把上述的图进一步放大，见下图：

那么横轴其实就是时间轴，取样点是48000（就是音频的频率），那么纵轴值（即振幅）如何计算？16位的有符号数取值范围为：[-32768,32767]（这里说明一下，根据这个振幅值可以计算声音的分贝），这里我用的这个软件，都将范围适配到-1.0到1.0了。但是这个不影响最后结果，只是表现而已。上下两个波形图，分别表示两个通道（即音轨）。所以到这里，是不是知道声音为什么是波形图了，或者说为什么用波形图表示了吧！没有想的那么难噢！

PCM数据？帧、流和文件？
我们常说的音频原始数据就是说的PCM数据，由3个参数衡量（就是上述的采样率，通道及位深）。那么PCM数据是什么格式，怎么解析呢？PCM数据如果是单通道的话，就逐个按照采样点大小读取就行了。如果针对多通道，就分两种情形：

顺序排列方式：每个通道按顺序存储，解析的时候逐个通道进行解析
交叉排列方式：每个采样点存储都是按照通道顺序进行存储的（常见的排列方式）
为了更加直观，见下图说明：

PCM文件数据是不可直接用于常见播放器播放的，因为PCM数据的采样率，通道数和位深这个三个参数是通过解析文件是不知道的，是需要显示指定的。VLC播放软件是可以播放PCM文件的，但也是需要人为指定PCM三个参数的，所以还是不可直接播放。

那么PCM文件如何播放呢？和其他MP3、WAV等直接可用于播放的音频文件又有什么联系呢？我们现在知道了要想播放PCM数据文件，需要让播放器知道PCM文件的三个参数，所以我们需要把PCM数据的三个参数整合到一个文件中，这样才可以直接通过文件直接进行解析出当前需要播放的文件的具体属性。所以只需要在PCM文件加上一个头部即可（这个头部至少包含衡量其的三个参数），这也就是WAV文件，wav文件数据流就是由一个头部和PCM数据组成（具体格式，谷歌百度上的资料很多）。

这里有的同僚可能会有疑问？我直接加上这个三个参数不行么，为什么还要像WAV文件包含了其他参数？直接加上三个参数当然可以，但是这是你自定义的可播放PCM文件标准，但是通用播放器并不会去识别，除非你自己开发播放器和生成你自定义的PCM音频文件。所以凡事都得标准化，微软在这里给出了一种基于PCM数据播放的文件格式标准WAV，并且外界也认可。这就是为啥很多东西要标准化，有了标准大家才会有参考，以这个为标准的技术应用才会越来越多啊

MP3文件呢？和WAV文件一样，也是一种可播放的文件格式。数据流也是由头部和数据组成。不过这个数据不是PCM数据，而是MP3编码数据（由PCM数据编码而来，何为编码见下文）。在播放的时候就多了一个解码步骤，需要先把MP3编码数据解码成PCM数据在输入播放器中。

上面已经提到了MP3文件和WAV文件两种可播放格式。这里需要给各位详细说明一下相关知识。在计算机中，一般音频数据不可直接用于播放的（这是相对于播放器而言），要想播放需要为音频数据加头！常见可以直接播放音频文件类型有：wav，flac，aac，ape，wma，mp3，ogg，m4a等格式。尽管这些格式是常见的格式，但是除了部分格式的资料很多，其他类型资料很少，而且网上有很多说法不一！所以要想把这几种类型的文件头部和数据解析出来，不是一件易事，需要根据网上残缺资料和逆向分析音频数据。庆幸的是我对这几种常见的类型都进行解析了（自夸一下，嘿嘿），不过花了很大的时间和功夫。文章最后我会给出wav和flac类型文件组成结构，之所以不全给也请诸位体谅下本人的知识产权，暂不对外！

我们知道了每个播放的文件都由头部和音频数据组成。但音频数据随着各种类型的文件，又分为其他几种形式（具体类型解释见下文）：

原始数据（PCM）：wav
无损压缩：flac，ape
有损压缩：aac，wma，mp3，ogg，m4a
不管无损或有损，每种类型压缩算法都不一样。想要继续深挖解压缩原理（即编解码原理），请自行百科！

搞清了可播放的音频文件之后，那么需要在搞清楚流和帧是个什么玩意了？流其实很简单，上述说的可播放的音频文件去掉头之后的音频数据就叫做流。流这个称谓常见在音视频领域，诸如音频流，视频流之类的话术，说的就是这么个玩意。还需要给各位说明的一点是，可能各位会听到可播放的音频流和不可播放的音频流，这两者又是个什么东东？这里请各位记住的一点是如果音频流直接可用于播放，他一定是加了头的（这个头不一定和上述可播放文件中的头完全一样，但一定包含了用于播放的三个参数）。

什么又是帧呢？音频中的帧没有准确定义。根据不同的类型格式有不同的定义和说法。音频中的帧不像视频中的帧那样定义很明确，一帧就是一副图像。尽管如此，还是需要和各位说明一下的。在PCM音频数据中，音频帧有两种说法：一是一个音频帧通常指一个采样点大小；二是一个音频帧用多长时间（这个时间没有标准）。在其他非PCM数据中，音频帧有固定大小的，非固定大小的，还有一种固定时长的。针对非固定的大小和固定时长的音频帧类型，需要实时解析才可知道音频帧的实际大小。

编解码是啥？为什么要编解码？
编解码通俗点讲就是压缩和解压缩，就是换了个说法而已，给人的感觉比较高级。其实吧，并没什么卵用（我个人觉得通熟易懂就行），编解码称呼常用于音视频相关和嵌入式部分开发中（本人知道的）。音频编解码到底是啥呢？把音频原始数据（PCM）编码为其他格式（aac、mp3、opus等）的数据这一过程称为编码过程（压缩）；把音频编码后的格式数据解码为原始数据（PCM，注意这里说的原始数据PCM，并非和编码前的PCM数据完全一样，也可能不一样，因为分为无损和有损两种，详情见下）称为解码过程（解压缩）。

无损压缩是将原数据压缩后，通过解压缩过程后的数据和原数据完全一样；有损压缩是将原数据压缩后，通过解压缩过程后和原数据高度相似而已（这里说的相似是针对具体环境和特征值的）。有损压缩的压缩率远远高于无损压缩

无损压缩常用于文件、重要数据资料等，各位可以直观想一下，如果压缩后的文件等数据是有损的，那么还原回来的数据就被破坏了，就没啥意义了。有损压缩常用于音频、视频、图像等，就拿图像来说，对大多数情况而言人们只需要觉得图像清晰就行，人的肉眼是感性的

可能有的同僚会问到，音频为什么要编解码（解压缩），直接处理不好么，而且还不会有音质损坏，速度也会更快。我想说的是音频编解码（解压缩）其中最主要的一个作用是最大化利用空间资源、还有就是起一定的加密作用。先说一个现象，国内计算机流行起来，大概在20世纪末21世纪初左右，也就是2000年左右，那会本人才5岁（有点暴露年龄了）。本人最开始接触计算机大概10岁左右，当时用的存储介质sd卡，还有软盘，只有几兆（大众化使用）。假设一段时长4分钟、采样率48000HZ，双通道，16位整型的PCM原始音频需要的空间：4 * 60 * 48000 * 2 * 16 / 8 = 45000 KB（约44MB），估计那会的mp3和随身听，存不了几首歌吧。尽管今天各存储介质基本都是以GB为单位了，但是如果音频不经过编码，依然会占用很大空间，这还仅仅是音频，未经编码的图片和视频占用空间更大。（本篇对图片和视频不做说明）

重采样？混流？增减益？
重采样实质就是改变现有音频参数（采样率，通道，位深）。例如：要把采样率为48000HZ，2通道，16位深的音频数据转换为采样率为22500HZ，1通道，16位深的音频数据。这个过程就叫做重采样，也就是说只要任一音频参数发生转换的过程就叫做重采样。这里分别针对采样率、通道及位深三个参数分别说明：

采样率重采样，只需要把源采样率适配到目的采样率就行了，根据二者相比的系数从而确定出重采样后音频的采样点数，然后根据插值方程：outData=(1-coe)*inData + coe*inData计算。下面给出1通道8位的x HZ到y HZ的部分代码：

//这里各个形参各位应该能对应上，这里不做说明
void reSampleFreq(unsigned long inFreq, unsigned char* inData, unsigned long inLen, unsigned long outFreq, unsigned char* &outData, unsigned long &outLen, unsigned short bits, unsigned short channels)
{
outLen = (unsigned long)(inLen * (double)outFreq / inFreq);
outData = new unsigned char[outLen];

int bitBytes = (int)(bits / 8);
int pointBytes = (int)(bitBytes * channels);
unsigned long inSamplePonits = inLen / pointBytes;
unsigned long outSamplePonits = outLen / pointBytes;

unsigned char* ptInData = (unsigned char*)inData;
unsigned char* ptOutData = (unsigned char*)outData;

for (unsigned long i = 0; i < outSamplePonits; i++) {
      double index = (double)i * inFreq / outFreq;
      int point1 = (int)index;
      int point2 = (inSamplePonits - 1 == point1) ? (inSamplePonits - 1) : point1 + 1;

      double coe = index - point1;
      ptOutData[i] = (unsigned char)((1.f - coe) * ptInData[point1] + coe * ptInData[point2]);
}
}
通道重采样，如果是单通道到多通道，只需把单通道数据拷贝多份，按照上面说的PCM数据排列方式即可；如果是多通道到单通道，只保留其中任何一条通道数据就行了。下面给出任意采样率频率8位的1通道到2通道的部分代码：

//这里各个形参各位应该能对应上，这里不做说明
void reSampleChannel(unsigned short inChannel, unsigned char* inData, unsigned long inLen, unsigned short outChannel, unsigned char* &outData, unsigned long &outLen, unsigned long freq, unsigned short bits)
{
outLen = (unsigned long)(inLen * (double)outChannel / inChannel);
outData = new unsigned char[outLen];

int bitBytes = (int)(bits / 8);
int inBitBytes = (int)(bitBytes * inChannel);
int outBitBytes = (int)(bitBytes * outChannel);
unsigned long inSamplePonits = inLen / (inBitBytes * inChannel);
unsigned long outSamplePonits = outLen / (outBitBytes * outChannel);

unsigned char* ptInData = (unsigned char*)inData;
unsigned short* ptOutData = (unsigned short*)outData;

for (unsigned long i = 0; i < outSamplePonits; i++) {
      ptOutData[i] = ptInData[i];
      ptOutData[i] <<= 8;
      ptOutData[i] |= ptInData[i];
}
}
位深重采样，比如无符号的8位（取值范围为[0, 255]）到16位（取值范围为[0,65535]），就是把二者范围差值相比，每个采样数大小乘以这个系数即可。下面给出任意采样频率1通道的8位到16位的部分代码：

//这里各个形参各位应该能对应上，这里不做说明
void reSampleBits(unsigned short inBits, unsigned char* inData, unsigned long inLen, unsigned short outBits, unsigned char* &outData, unsigned long &outLen, unsigned long freq, unsigned short channels)
{
outLen = (unsigned long)(inLen * (double)outBits / inBits);
outData = new unsigned char[outLen];

int inBitBytes = (int)(inBits / 8);
int outBitBytes = (int)(outBits / 8);
unsigned long inSamplePonits = inLen / (inBitBytes * channels);
unsigned long outSamplePonits = outLen / (outBitBytes * channels);

unsigned char* ptInData = (unsigned char*)inData;
unsigned short* ptOutData = (unsigned short*)outData;

for (unsigned long i = 0; i < outSamplePonits; i++) {
      unsigned char retLow = 0;
      unsigned char retHigh = 0;

      if ((ptInData[i] & 0x80) == 0x80) {
         retLow = 0x00;
         retHigh = (unsigned char)(ptInData[i] - 0x80);
      }
      else {
         retLow = 0xff;
         retHigh = (unsigned char)(ptInData[i] - 0x80);
      }

      ptOutData[i] = retHigh;
      ptOutData[i] <<= 8;
      ptOutData[i] |= retLow;
}
}
至此三种参数变化的重采样方法已进行说明，如果有多个参数需要同时适配，这里各需要组合即可。这里之所以没有把代码给全，也希望各位体谅下作者的知识产权，不过后面会发布在本人的云平台上，也请各位期待吧！

什么是混流？混流就是把两段音频数据混在一块进行播放处理，但是两段音频数据能混在一起的前提条件是这两段音频数据的属性参数（采样率，通道，位深）得是一样的，才可以混在一块进行播放，所以这时如果两段音频属性不一样的话，需要先对这两段音频进行重采样。那么音频属性一致之后再怎么进行处理呢？主要有两种方法处理，一种是平均值法（相对简单）；一种是加权计算法（相对麻烦）。平均值法，就是把各采样点数据相加除以流路数即可，这种方法的好处是简单，不用考虑振幅溢出问题，弊端是整体音量会减小；加权计算法，又有多种方法，得看具体的权值计算，这种方法的好处是混合后音量基本不变，弊端是处理麻烦，需要考虑溢出问题（即滤波）。下面给出平均值混流代码片段：

unsigned long outSamplePonits = (ulLen - unHeaderLen) / samplePointSize;
unsigned int* ptOutData = (unsigned int*)&this->m_lpMemData[unHeaderLen];
for (unsigned long i = 0; i < outSamplePonits; i++) {
int lowChannel = 0;
int highChannel = 0;
int soundCount = 0;

for (auto sound : this->m_setMemMulti) {
      unsigned long samplePonits = (sound->ulLenRe - unHeaderLen) / samplePointSize;
      unsigned long realSamplePonitsLen = samplePonits - sound->nOffsetBytes / samplePointSize;
      if (i < realSamplePonitsLen) {
         unsigned int* ptData = (unsigned int*)&sound->ptDataRe[unHeaderLen + sound->nOffsetBytes];

         short lc = (short)ptData[i];
         short hc = (short)(ptData[i] >> 16);

         lowChannel += lc;
         highChannel += hc;
         soundCount++;
      }
}

ptOutData[i] = (unsigned short)(highChannel / soundCount);
ptOutData[i] <<= 16;
ptOutData[i] |= (unsigned short)(lowChannel / soundCount);
}
增减益又叫音量大小变化，上面说过改变音量大小就得改变音频波形的振幅，也就是改变采样点的位深值，在增大或减小的时候需要考虑边界值。这里说下两种特殊情况，静音，所有采样点位深值为0即可。至于最大音量是没有的，并不是说你把所有采样点的振幅值调整到最大值，音量就最大了，调整音量的时候得保证等系数变化，尤其在增大的时候，还得考虑溢出问题，不然声音听得不顺耳啊。下面给出音量调整代码片段：

unsigned long samplePonits = (sound->ulLenRe - unHeaderLen) / samplePointSize;
unsigned int* ptData = (unsigned int*)&sound->ptDataRe[unHeaderLen];
unsigned int* ptDataBak = (unsigned int*)&sound->ptDataReBak[unHeaderLen];

double coe = sound->nVolume / 100.0;
for (unsigned long i = 0; i < samplePonits; i++) {
unsigned short lowChannel = unsigned short((short)(ptDataBak[i]) * coe);
unsigned short highChannel = unsigned short((short)(ptDataBak[i] >> 16) * coe);

ptData[i] = highChannel;
ptData[i] <<= 16;
ptData[i] |= lowChannel;
}
技术拓展及应用？
音频技术有哪些？针对windows操作系统提供的技术见下：

mci：支持混音播放，mp3格式，wav格式。支持麦克风采集
wave：支持混音、混流播放，wav格式，pcm数据流。支持麦克风采集
DirectSound：支持混音、混流播放，wav格式，pcm数据流。支持麦克风采集
DirectMusic：本人没用过，该技术已淘汰
DirectShow：支持混音播放，wav格式
CoreAudio：支持混音、混流播放。支持麦克风采集，声卡采集
XAudio：本人没用过，该技术常服务于XBox游戏主机
PlaySound：支持文件、流播放，不支持混音播放。wav格式，wav流
midi：支持文件播放。支持声乐合成录制。wav格式

Alesis · 发表于 2005-6-1

声音的概念？。。。。。

jrbok001 · 发表于 2005-6-1

我这是怎么了？

亚心 · 发表于 2005-8-18

不错，支持

124462316 · 发表于 2005-8-23

感谢djp的再支持!!

帐号		自动登录	找回密码
密码			快速注册

[讨论] 声音的概念？

相关帖子