网络课件制作中的音频呈现技术

254969084 · 发表于 2015-12-28

网络课件制作中的音频呈现技术
阮高峰

内容提要：本文介绍了MIDI、波形和压缩音频和TTS三种应用于网络课件中的音频技术，并对其发展前景作了一些展望，本文对网络课件的开发具有较大的指导意义。
关键词：网络课件 MIDI 波形音频流媒体 TTS

Abstract: In this paper, three audio presentation technologies ,that is MIDI, wave form audio together with its zipped forms, and TTS(Text to Speech),are introduced in this paper,
Key words: Online Courses, MIDI, Wave form audio, Stream media, TTS

0.引言
网络课件作为网络远程教育中教学信息流通的主要途径，扮演着越来越重要的角色，网络课件的多媒体化、智能化也越来越多得为网络教学组织者和网络课件开发者所重视。

音频技术作为多媒体技术的重要组成部分，在网络课件中具有极为重要的作用。本文从网络课件开发的角度出发，综述了MIDI、波形音频等网络课件中的音频呈现技术及其相应的使用方法，并提出了应用Microsoft TTS和Microsoft Agent技术的可编程语音实现方式，并对其在网络课件导航、语言类网络课件中应用的方式和方法作了一些探讨。

1.Midi技术
1.1MIDI文件原理及特点

MIDI是Musical Instrument Digital Interface的简称，意为乐器数字接口。它是一种电子乐器之间以及电子乐器与计算机之间的统一交流协议。它产生于20世纪80年代初，它经历了长时间的发展，出现了GS（Roland）、GM和XG（Yamaha）三类音色排列方式的标准，现已成为计算机数字音乐的代名词。广义上的MIDI可以理解为电子合成器、电脑音乐的统称，包括协议、设备等等相关含义。狭义的MIDI通常是指采用MIDI设备记录在计算机中的数字音乐文件。

MIDI文件通常以MID、RMI为扩展名。MIDI文件可以理解为是一种描述性的“音乐语言”，用于记录所要演奏的乐曲信息（称MIDI信息），如使用乐器、起始时刻、时长、力度、音调等。在回放时，再从MIDI文件中读取MIDI信息，在声卡中通常FM（频率调变）合成或是波表合成的方式，生成乐器声音波形，并输出到扬声器。

和普通音频文件相比，由于其不存在对声波的采样、量化和编码处理，因此文件体积通常都比较小，一段5分钟的MIDI很可能只有近百K的容量，因此比较适合在网上传播。此外，MIDI文件也可以由专门的软件如Cakewalk等方便地进行编辑修改。

1.2 MIDI文件在网络课件中的使用

MIDI音效虽然有小巧的优点，但由于其只能模拟乐器和极为有限的环境音效，不能再现真实音频，加之回放质量受合成器质量影响，因而在网络课件的设计应用极为有限，除音乐类课件外，MIDI通常只是用来制作背景音效。

HTML语言中提供的Bgsound元素可以方便地在网页面中直接插入MIDI，这也是MIDI音乐在网络课件中最常见的用法，例如我们要把当前目录中的Passport.mid文件插入网页，就可以使用以下语句：

其中“src”代表MIDI音乐的路径，既可以用相对路径，也可以使用绝对路径指定，“loop”表示MIDI的播放次数，其中0表示无限次。

除此之外，另一个常见的网页编辑软件Macromedia公司的Dreamweaver提供了专门的行为（Behavior）用于在网页插入声音文件，并且允许一些初步的交互，比如只有点击文件的链接，声音才播放，所以也可以应用这种方法在网页中插入MIDI。由于在这种方式下，MIDI文件不再自动播放，而允许浏览用户根据需要点击相应的链接播放对应的文件，因此此法对于一些网上音乐课件中的音乐欣赏显示是很有实用价值的。

用Dreamweaver插入MIDI时，首先单击“Window”/“Behaviors”打开行为面板（快捷键Shift+F3），单击行为面板中的“+”并在下拉菜单中选择“Play Sound”添加播放声音的行为，接下来在出现的“Play Sound”对话框中单击“Browse”按钮选择需要插入的MIDI文件并单击确定即可。重复以上操作可以在网页中插入多个MIDI文件。

2.波形及压缩音频
在更多的时候，网络需要应用的是再现真实的声音，比如教师讲课的声音、歌唱的声音、自然物的声音，这些都是MIDI根本无法模拟的，这种情况下就需要波形文件了，事实上这也是当前网络课件应用最为广泛的音频技术。

2.1波形文件概述及其数字化原理

波形（Wave form）文件源自微软和IBM当年为Windows 3.1开发多媒体资源交互文件格式RIFF（Reources Interchange File Format）的一部分，它是用于PC间交换声音信息的常用的编码技术。

波形文件一般用于存储非乐曲音频数据，如语音。通常可以通过波形音频设备对声波进行采样、量化、编辑和其它处理后生成。

2.2 波形文件应用网络课件的特点

波形文件通过对声波的数字化处理而得，因此可以在最大程度上再现真实声音，因为更加逼真生动，适于表现各种情境。

但是，波形文件在获得高保真音效的同时，也带来了巨大的文件数据容量。数据容量可以由以下三个指标决定：采样频率、编码位数和通道数。这几者关系是文件的数据容量=采样频率*编码位数*通道数*采样时间bit，比如以44100HZ采样、16位编码的双声道数字音频，1秒种的数据流量为44100*16*2*1=1411200 bit。

2.3 波形课件应用于网络课件的解决方案

由于网络带宽的限制，声音的真实性和较大的容量成了约束波形音频应用于网络课件的一对矛盾，如何在两者之间找到一个平衡点是网络课件开发者必须要考虑的一个问题，目前，随着网络传输技术、媒体压缩技术特别是流媒体技术的发展，波形音频应用于网络课件已经有较为成熟的应用解决方案，大致来讲有以下几种。

2.3.1 压缩音频

前面已经提到，波形音频的数据容量巨大，不利于在网上传播。针对这一情况，一种较为常见的方法就是在波形文件（*.wav）基础上对音频进行压缩，减小数据量和网络带宽要求。

常见的压缩音频格式有Macromedia最初应用于Authorware的Voxware音频、MP3、Real Networks的Real Audio、Windows Media Audio。

2.3.2 流媒体传输技术

压缩音频极大地减少了网络带宽要求，但是在当前的网络环境下，还是需要经过很长的下载时间才能播放。在这种情况下，流媒体技术便应运而生，通常所言的流媒体是指对多媒体信息的“流”化处理和传输，边下载边播放。

目前比较流行的流媒体系统主要有美国Real Networks的Real Media系统、Apple公司的Quick Time以及Microsoft的Windows Media系统。三种系统各有优势，但由于Windows Media系统提供了免费的全套解决方案，并且由于其与Windows系统天生的兼容性及优良性能，越来越受到网络媒体应用开发者的欢迎，在远程教育NVP课件应用中较为广泛。

应用流媒体技术，可以使音频文件在Internet/Intranet上做到在既无漫长的下载等待时间又无须占用用户机大量硬盘空间的情况下播放，在网络课件制作中具有广泛的应用前景。

流媒体文件在网上的传输通常需经过前期的流媒体文件的制作、流媒体服务器架设、流媒体文件在流媒体服务器上的分发以及客户端通过媒体播放器或网页内嵌的媒体播放器ActiveX进行播放几个环节。

以Windows Media系统为例，首先需要通过Windows编码器等制作软件从实况源或已经存在的其它格式音视频文件（*.WAV、*.MP3等）捕获编码并制作生成为Windiows Media格式的流媒体文件。

2.3.3 其它技术

此外还有其它一些技术专门用来在网络上呈现音频，如Flash、Director、JAVA，从本质上来说，它们也都是压缩音频的具体应用（比如Flash中的音频用的就是MP3编码）。

3.TTS语音
3.1 TTS和Microsoft Agent概述

TTS引擎是一个专门用于将将应用软件及程序等中的文本转换为声音输出的软件。TTS引擎可以作为单独组件进行安装（下载网址：http://www.microsoft.com/msagent/downloads.htm）并且可以为其它程序软件调用。TTS为计算机软件提供了一种更加接近自然的人机交互方式，因而一经推出就受到众多软件开发商的重视，并纷纷在自己的软件中集成TTS技术，例如著名的翻译软件金山词霸便是调用TTS引擎来实现单词发音，此外在Windows 2000/XP、Office 2000/XP也已预装了TTS引擎，并且已经集成到Microsoft Agent技术中作为其声音处理模块，用来控制卡通人物的口形变化和语音输出。

TTS引擎提供了一个语音库，记录了所有字词的读音，在回放时只要将目标词句从语音库中提取相应的读音，并最终合成为一段连续的语音。TTS发布初期只支持美式英语，2000年7月，Microsoft扩充了英式英语、荷兰语、法语、德语、意大利语、日语、朝鲜语、葡萄牙语(面向巴西)、俄语、西班牙语等10国语言，2001年8月发布的Microsoft Speech SDK 5.1又包含了简体中文语音。

3.2 TTS语音的特点

TTS以组件形式提供，任何支持COM和ActiveX的编程语言都能够引用，这些语言几乎涵盖了现有的所有语言，如C++、VB、Pascal，甚至是VBScript和Jscript。独特的优势加上开放性的引用规则，使得TTS一出来就广受瞩目。在多媒体创作、Web应用、软件帮助系统和辅助工具制作等方面，都有广泛的应用。

它其它的音频呈现技术相比，TTS兼有MIDI小巧和波形音频高保真的特点，并且可以编程控制。

首先，要实现TTS语音只要编写相应的代码将文本转换成语音即可，因此它的数据量不包括音频数据，而只是一些TTS程序控制语言，所有的语音是在用户计算机中实时合成的，所以它比较适合网络传输，即使在低带宽条件下，也可以达到很好的效果。同时TTS可以较好的还原语音信息，音质与波形文件上近，且不存在传输失真的情况，此外，TTS语音还可以通过编程的方法进行个性化设置，如自定义语速、语调、选择不同的语音库。

当然，TTS也有不足之处，首先是它通常只能用来存储语音信息（字词读音），而对自然物、环境音效等无能为力。其次，TTS只有在安装了TTS引擎的计算机中方可正确调用，并且其使用的语言受语音库限制。此外，目前TTS的技术仍未达到完全的成熟，在语音的连贯性、语调的变化等方面仍需要做进一步的完善。

但无论怎样，TTS都为网络语音的呈示提供了一种较好的解决方法。

3.2应用MS Agent和TTS的网络语音应用实例

本例以VBScript为例，演示如何在HTML页面中引用TTS引擎实现网络课件的导航，为达到较好的效果，我们将同时引入Agent控件。

首先，我们需要在HTML文件中引入Agent和TTS控件，以下代码分别用来引入Agent和TTS ActiveX控件。

在引入控件后，假设我们需要载入的Agent角色为Merlin，我们实现的目标是使Merlin出场，然后调用TTS输出语音“Welcome to the Microsoft Agent Scripting Zone! I am in Zhejiang Normal University!”，然后执行标准动作“Congratulate_2”（鼓掌），再接着说出语音“you can use TTS engine to translate any text to voice”并隐藏。引用的VBScript脚本编写如下：

图 1.使用Agent实现网络语音

网页最终在浏览器中的显示效果如图1所示。如果将TTS技术、Agent技术、网络数据库技术和ASP等网络编程语言结合，那么就可以方便地实现具有更强大功能的交互性多媒体网络课件，特别是语言学习类网络课件。

纵观三种网络课件的音频呈现技术，当前以基于波形文件的压缩音频和流媒体技术的应用最为广泛，而TTS为网络语音的展示提供更加高效的解决方案，并极有可能在不远的将来得到更为广阔的应用空间，目前，W3C和IBM正在力主建立一个语音标识语言VoiceML的标准，这一切无疑会使网络语音呈现技术更上层楼。

参考文献：

[1] 杨俊、蔡宣平、颜飞翔。《数字音频技术及其应用与发展》[J]。《电声技术》2001，6。

[2] 阮高峰。《给你的网页加个精灵》[J]。《视窗世界》2002，10。

tommy7312 · 发表于 2016-10-28

谢谢分享，我收藏了

帐号		自动登录	找回密码
密码			快速注册

[教程] 网络课件制作中的音频呈现技术

相关帖子