|
发表于 2009-11-14
|
|阅读模式
谈到音频处理,有很多术语是大多数人以前听说过的,但并不真正理解。在我不得不从事音频处理工作之前,我曾经是这些人中的一员。为此,我想谈谈其中的一些术语,描述它们是什么,并展示它们对音频录音或流的质量意味着什么。在这篇文章的其余部分,我们将假设我们只处理一个通道的未压缩的音频。
(1) 采样率/采样频率
我们经常听到的第一个术语是采样率或采样频率,两者指的是同一件事。你可能遇到过的一些数值是8kHz、44.1kHz和48kHz。究竟什么是音频文件的采样率?
采样率是在模拟信号转换为数字信号过程中的一个关键概念,它定义了每秒中对模拟信号进行多少次测量(采样)。采样率的单位是赫兹(Hz),即每秒采样次数。这个参数直接影响到能够从模拟信号中捕获的频率范围以及最终数字信号的质量。例如,如果采样率是8000赫兹,那么在一秒钟内有8000个采样是不够的;它们必须在一秒钟的1/8000时间内准确地被采集。在这种情况下,1/8000的数字被称为采样间隔(以秒为单位),而采样率只是该间隔的乘法倒数。
采样率对于录制和再现音频信号的质量至关重要,特别是对于语音信号。
根据香农采样定理(Nyquist–Shannon sampling theorem),为了无失真地重构一个信号,采样率应该至少是信号最高频率的两倍。
香农采样定理的意义在于,它提供了将连续时间信号转换为离散时间信号,而不损失信息的理论基础。这是数字音频、数字视频和其他数字信号处理技术的基础。如果采样率低于奈奎斯特率,信号中的某些频率成分就无法正确重构,这种现象称为混叠。混叠会导致重构的信号与原始信号在某些频率上发生失真。因此,实际应用中,设计采样系统时要确保采样率满足或超过奈奎斯特率,以避免混叠现象,确保信号可以被准确重构。在一些应用中,还会使用稍高于2倍最高频率的采样率,以便于数字滤波器的设计,进一步减少混叠的影响。
音频采样率和视频帧率是相似的,类似于视频的帧率或FPS(每秒帧数)测量。视频只是一系列的图片,在这里通常称为 "帧",非常快速地背对背显示,给人以连续不间断运动或移动的错觉(至少对我们人类来说)。对于视频来说,为了保证运动的准确描述,每秒至少需要24帧;少于这个数字,运动可能会显得不流畅,连续不间断运动的错觉也无法保持。这一点在帧与帧之间发生的运动越多时尤其适用。此外,每秒1或2帧的视频可能会有 "瞬间 "事件,保证在帧之间被错过。
对于音频来说,要明确地表示英语语音,每秒的最小采样数是8000赫兹。由于各种原因,使用低于这个数字的采样率会导致语音无法被理解,其中一个原因是相似的话语将无法相互区分。较低的采样率会混淆音素或语言中的声音,这些声音具有显著的高频能量;例如,在5000赫兹下,很难将辅音 /s/与/sh/或/f/区分开来。
既然我们提到了视频帧,另一个值得详细说明的术语是音频帧。虽然音频样本和音频帧都是以赫兹为单位,但它们并不是一回事。一个音频帧是来自一个或多个音频通道的一个时间实例的音频样本组。
最常见的采样率值是前面提到的8kHz(最常见于电话通信)、44.1kHz(最常见于音乐CD)和48kHz(最常见于电影的音轨)。较低的采样率意味着每秒钟的采样数较少,这反过来又意味着较少的音频数据,因为有较少的采样点来表示音频的数量。采样率的选择取决于需要采集哪些声学伪影。一些声学人工制品如语音语调需要的采样率比声学人工制品如音乐CD中的音乐曲调要低。值得注意的是,更高的采样率需要更多的存储空间和处理能力来处理,尽管这在过去数字存储和处理能力是首要考虑的情况下,现在可能不是那么大的问题。
(2) 采样深度/采样大小/位深(Bit Depth)
位深,或采样深度,决定了每个样本的声音振幅能有多少种可能的值, 代表了每个样本的细节水平,或 "质量"。。例如,16位音频可以提供65536(2^16)种不同的振幅级别。位深越高,音频的动态范围越大,可以更精细地再现声音的细微差别,从而提高音质。
动态范围是指音频中最大振幅(最响的部分)与最小振幅(最安静的部分)之间的比率,通常用分贝(dB)表示。高动态范围意味着音频可以同时捕获非常安静和非常响亮的声音,而不是让安静的声音消失在背景噪音中或让响亮的声音因削峰而失真。
以此类推,采样深度更高。电话音频最常见的采样深度是16比特和32比特。在数字录音中,有越多不同的振幅,数字录音听起来就越接近原声事件。
同样,这也类似于我们可能听到的关于图像质量的8位或16位数字。对于图像或视频,图像或视频帧中的每个像素也有一定数量的比特来表示颜色。像素中的比特深度越高,产生的像素颜色就越准确,因为像素有更多的比特来 "描述 "屏幕上要表现的颜色,而且像素或图像总体上看起来更符合人们在现实生活中的样子。从技术上讲,一个像素的比特深度表明该像素可以代表多少种不同的颜色。如果你允许R、G和B中的每一个用8位数字表示,那么每个像素就用3 x 8 = 24位表示。这意味着有2^24~1700万种不同的颜色可以由该像素表示。
(3) 比特率/码率(Bit rate)
指的是在数字音频中,每秒钟传输的比特数,通常以kbps(千比特每秒)或Mbps(兆比特每秒)为单位。音频比特率直接影响音频文件的质量和大小,更高的比特率通常意味着更好的音质,但也会产生更大的文件大小。比特率受到采样率和位深的影响。
将采样率和采样深度联系在一起的是比特率,它是两者的简单乘积。由于采样率是以每秒的样本数来衡量的,而采样深度是以每个样本的比特数来衡量的,因此它是以(每秒的样本数)x(每个样本的比特数)=每秒比特数来衡量的,缩写为bps。值得注意的是,由于采样深度和比特率是相关的,它们经常被交换使用,但也是错误的。
音频中的比特率因应用而异。要求高音频质量的应用,如音乐,通常有一个更高的比特率,产生更高的质量,或 "更清晰 "的音频。电话音频,包括呼叫中心的音频,不需要高比特率,因此普通电话的比特率通常比音乐CD的比特率低得多。无论是采样率还是比特率,较低的数值可能听起来更糟糕,但同样,根据应用,较低的数值可以节省存储空间和/或处理能力。音频比特率直接影响音频文件的质量和大小,更高的比特率通常意味着更好的音质,但也会产生更大的文件大小。
总而言之,在有损压缩中,比特率成为了衡量压缩后音频质量的一个重要指标。比特率越高,压缩过程中丢失的信息就越少,音质也就越接近无损原始录音。
音频压缩可以是无损的也可以是有损的,但最常见的压缩格式,如AAC (高级音频编码) 和MP3 (移动图像专家组音频层III),都是采用有损压缩方法, 其比特率比采样率和采样深度的真正乘积小一些。这些格式是通过 "外科手术 "从比特流中去除信息来实现的,这意味着在动态情况下那些由于生物原因人耳听不到的频率或振幅不会被存储,从而导致整体文件大小变小。
了解音频文件格式和相关参数对于音乐制作人员来说
至关重要,不仅因为它们直接影响音频的质量和体验,也因为它们是行业通用的技术语言。为了确保能够准确交流和制作出高质量的音频作品,音乐人和音频工程师需要对这些基本概念有深入的了解和应用能力。这也是为什么音频技术教育和持续学习对行业内的专业人士来说非常重要。 |
|