如今,几乎每台 PC 都配备了声卡和相关扬声器。扬声器和声卡与计算机操作系统一起,有助于播放音频声音(音乐,语音,鸟类通话或任何其他噪音),因此最终用户可以听到声音。 扬声器发出的声音实际上是压缩空气的波。人耳能够辨别这些波,只要它们的频率驻留在可听见的光谱中。从本质上讲,这些声波是连续的。每个波都有一个与其相关的离散压力值,并且每个可能的值都会产生不同的声音。 在计算机处理声音之前,声音必须转换为一系列的 1 和 0。这是一个称为数字化的过程。为了了解数字化的工作原理,让我们想象一下插入计算机声卡的麦克风。麦克风上的薄膜根据当前气压来回移动。麦克风电路将这一运动转化为连续且实现的电信号。依次,声卡具有称为模数转换器或ADC的电路。ADC可以将此电信号转换为一系列和零。通过定期测量电信号并将其转换为整数值,可以完成此转换。进行测量的频率称为采样率,整数的大小(位于位)称为样本量。每个测量的结果称为样本。 每秒的样本越多,重新播放声音时将获得声音的准确性就越大。样本速率以每秒数千个样品数量测量,并表示为每个周期的特定样品(第二个)。大多数CD的样品速率为44.1 kHz,48kHz-用于DVD。一些提议的未来音频设备可以高达96kHz。8.0 kHz的样本速率比CD质量记录的样本的少于五分之一,并且比录制音乐更适合于命令类型的应用。当然,较高的采样率意味着必须保存更多数据,并且文件大小和磁盘空间需求相应地增加。 样本量表示将用于每个样品测量的比例尺,通常为8位或16位。在8位可以表示0至255之间的比例。0至65,535之间的量表可以用16位表示。因此,16位样本量可提供更大的粒度,并且可以比8位样本量更准确地代表正确的压力。同样,CD质量记录的样本量为16位,记录(例如命令)的样本量为8位。一些较新的音频设备能够处理24位样本量。 数字声音的最后一个基本特征是许多频道。为了反映声音的空间特性,必须同时在一个位置中测量它。例如,通常需要两个麦克风来获得立体声声音。每个独立的测量点都会产生一个通道。在绝大多数情况下,通道的数量为一个(单声音)或两个(立体声声音)。新系统最多可以使用6个频道(Dolby 5.1),甚至更多。 总而言之,每个数字声音都有三个基本特征:样本率,样本量和通道数。 压缩即使在当今的高速互联网连接和巨大的硬盘驱动器中,音频文件也不能被视为微小或小。已经开发出竞争性的压缩方法来满足各种要求,压缩音乐和压缩语音是两个明显的例子。每种压缩方法都会有自己的优势和缺点。这些优点和缺点最常见的可能是所得文件的大小与复制声音的质量相比。由于复制声音的质量通常是一个非常个人的判断,因此用户必须始终牢记这样一个事实,即他们自己使用各种压缩方法的经验应该是评估要使用哪种压缩方法的最有用的指南。 压缩方法可以广泛地归类为无损或损失。通过无损压缩,声音被完全像最初听到的那样复制。因为繁殖是精确的,所以无损压缩方法无法以与有损方法实现的程度相同的程度来压缩文件。在Windows环境中,大多数压缩方法都使用有损技术。 有损压缩技术实际上消除了代表声音的数字数据流的某些部分。删除数据的数量和类型取决于开发压缩方法的目的。例如,可能已经开发了一种特定的压缩方法来播放流行音乐。这种方法将尝试以很大的质量重现音乐。它可能只想删除大多数人听力门槛附近或超出声音的部分。使用这种方法,大多数人只能检测到质量的微小差异。 可以设计一种不同的压缩方法来记录口语单词。通过这种压缩,可能会丢弃大量的声频谱,因为它与记录语音的目的无关。在这种情况下,通常可以实现更高的压缩水平。 除了样本率,样本量和通道数外,压缩声音还具有比特率的特征。比特率告诉存储声音需要每单位时间数量。它通常以KBPS进行测量(每秒千比特)。对于未压缩的声音,比特速率始终是样本率的乘积,乘以样本量乘以通道的数量。对于压缩声音,它比上述产品低,并且差异可以视为压缩程度。 无损压缩 无损编解码器会压缩声音数据,从而产生较小的声音文件,其质量与原始文件完全相同。通常,由无损编解码器压缩的声音文件的尺寸大于损失算法压缩的声音文件。无损编解码器的速度和压缩程度以及支持的声音格式有所不同。您可以通过编码Windows Media Audio 9无损格式或免费无损音频编解码器(FLAC)格式来使用总记录器进行无损压缩。请注意,将无损压缩应用于以前使用Lossy编解码器编码的文件没有任何意义。这样的动作很可能只会导致更大的声音文件,而没有任何声音质量。 存储声音 数字声音可以多种形式存储。仅举几个: - 计算机硬盘上的音频文件
- 音频CD
- 一个小盘
- 数字磁带
* y4 R: L4 F4 o( F5 G 对于基于 PC 的数字音频,保存到计算机硬盘是最重要的格式。PC 音频的来源几乎总是音频文件,其中有多种类型和格式。已经开发了许多软件程序来播放这些音频文件。本页的其余部分让用户对一些音频文件格式和一些相关的音频软件有基本的了解。/ C2 ~0 n9 F$ \, R
音频文件简介在 PC 上识别和播放的音频文件有多种不同的格式。不同的文件格式通常与不同的文件扩展名相关联。例如,正如 MS Word 文件可能被命名为 filename.doc(扩展名为 .doc)一样,音频文件的一种格式是 wav 文件,并且可能被命名为 filename.wav。其他音频文件格式包括 mp3 文件 (filename.mp3)、Ogg Vorbis 文件 (filename.ogg)、Real Audio 文件 (filename.ra) 等。所有这些格式都是原始声音的数字表示。在某些时候,这些文件中的声音已从可能来自麦克风、电唱机或其他类似设备的连续“模拟”信号转换为数字格式。这种转换是通过 PC 内声卡上常见的电路完成的。该电路称为模数转换器 (ADC)。类似的电路也用于将声音从数字转换回模拟,称为数模转换器 (DAC)。DAC 电路用于转换数字文件,以便可以通过 PC 上的扬声器进行播放。 如前所述,大多数数字音频文件将共享几个描述所录制声音的属性的属性。这些属性包括采样率、采样大小、通道数、比特率和所使用的压缩技术。 WAV 文件 WAV 文件是 Windows 环境中录制音频的最常见标准。然而,随着对各种形式音频的需求呈指数级增长,出现了许多竞争格式。通常,WAV 文件可以通过其 .wav 扩展名来识别。在 WAV 格式中,可以使用多种不同的压缩方法。其中许多压缩方法可作为 Windows 操作系统的标准部分。 压缩编解码器 在Windows操作系统环境中,音频压缩方法可以在称为编解码器的特殊程序中实现。有许多编解码器作为各种 Windows 操作系统的标准部分。CODEC 压缩程序通常包含在扩展名为 .acm 的文件中。例如,tssoft32.acm 是名为 DSP Group TrueSpeech 的压缩算法的 CODEC 文件。 如果正确安装了 CODEC,Windows 将方便 PC 上运行的任何音频程序使用该 CODEC。程序可以使用编解码器来编码(记录)或解码(播放)音频文件。可以通过音频文件中存储的信息来识别用于压缩音频文件的压缩方法。保存此信息允许稍后在解码文件进行播放时选择正确的编解码器。 出于兼容性原因,包含了许多作为 Windows 操作系统标准部分的编解码器。它们的包含允许 Windows 环境和其他专用音频系统之间的互操作性。此外,还包括许多更通用的编解码器。下面提供了这些通用编解码器的主观概述。用户应记住,这些解释是按“原样”提供的。如果有任何疑问,用户应查看可用的压缩方法,并自行判断最适合其应用的一种。 音频格式对比图 | | | | | | | | | | | | | | | | | | 低或中等质量的音乐
: L, c6 ]3 v0 F2 Q | | | | | | | 相变材料 | | | | | 96kHz、24 位、立体声; k0 p$ y# R. U7 ]; {3 e
(仅适用于专业版和开发版用户) | | | | | | | | VBR 质量 100、44 kHz、2 通道 16 位 | | | | | | |
* 对于 MP3 格式的录制,Total Recorder 可以使用系统中安装的 MP3 编解码器。请注意,不同版本的 Windows 包含支持不同 MP3 格式的不同 MP3 编解码器。Total Recorder 还可以使用其他程序(例如 dll)创建高质量的 mp3 文件。 另请注意,MP3 文件可以具有标准 RIFF-WAVE 标头(此类文件通常具有 .wav 扩展名),也可以不包含任何特殊标头(这些文件通常具有 .mp3 扩展名)。大多数 MP3 文件没有 RIFF-WAVE 标头,因为 MP3 格式包含其解码所需的所有数据。 DSP 组 TrueSpeech DSP Group TrueSpeech CODEC 由加利福尼亚州圣克拉拉的 DSP Group 编写。这种压缩方法是专门为了满足记录人类语音的要求而编写的。该方法消除了相当一部分潜在声谱。然而,删除的数据对听众理解所说内容的能力几乎没有影响。该算法“四舍五入”了与原始口语单词中发现的音调相关的许多高点和低点。听众可能不再察觉到这些音调推断出的一些情绪,但实际的话语仍然相当清晰可辨。 该编解码器是录制听写的绝佳选择。编解码器支持 8.0 kHz 采样率、8 位采样大小和单声道录音。一小时的 TrueSpeech 录音可容纳大约 4.5mb 的磁盘空间。我们建议将 TrueSpeech 用于与说话者的情绪无关的听写类型应用程序。 勒努特和豪斯皮 Windows 中包含多种 Lernout 和 Hauspie 编解码器。所有这些编解码器都具有较小的采样率,并且是专门为满足记录人类语音的要求而编写的。 编解码器的采样率为 8.0 kHz,采样大小为 16 位。所有编解码器都是单声道的。样本大小的额外大小为这些录音提供了额外的音调,但也会增加文件大小。使用 Lernout & Hauspie SBC 16kbit/s 编解码器录制的文件一小时录制所需的磁盘空间不到 9mb。我们建议使用 Lernout 和 Hauspie 编解码器来录制需要超出 TrueSpeech 提供的质量水平的应用程序。录制电话交谈是使用该编解码器的一个很好的例子。 相变材料 PCM 是一种完全未压缩的声音格式。由于它是未压缩的,因此不会因删除数据而造成质量损失。Total Recorder 支持采样率从 8.0kHz 到 48.0kHz 的 PCM 文件,采样大小为 8 位和 16 位,并支持单声道和立体声。Total Recorder 专业版/开发者版可以录制和播放高质量 PCM 文件(最高 192kHz、24 和 32 位浮点单声道和立体声,如果 PC 上安装的声卡支持这些格式)。 当文件大小不成问题时,最好使用此格式。如果文件要快速移动到 CD,就会出现这种情况。 如果您最终计划对文件进行数字处理(例如混音、应用噪声抑制、均衡等),还建议您以 PCM 格式录制和保存文件。 |