yinpin 发表于 2015-12-21

语音识别功能逐步普及

谁不想能对一台机器下命令而得到快速响应?谁不想用一台电脑或电话机来快速而准确地完成指定任务?这类机器虽然仍是一种新奇产品,不过确在逐步普及。很快地,一台个人电脑或蜂窝电话如果没有语音识别能力,就将一无用处。从用户角度出发,历来都是这样:今日的奢侈品明日就成为必需品。
据美国市场研究公司VoiceInfor-mationAssociates预计,在未来三年中,美国语音识别市场的销售额会增大一倍,即从1994年的3.75亿美元增至1997年的7.8亿美元。欧洲的市场咨询公司Frost&Sullivan则预计,世界语音识别市场销售额,在1993年原为26亿美元,到1998年可望增长为54亿美元。该公司还预计,来自金融市场的收入,将从1993年的25%下降到1998年的23%。虽然,语音识别只需特定的元件就可完成,但大多数人都认为,只要有数字信号处理器(DSP)就行了。

亚利桑那州坦佩ForwardCon-cepts咨询公司的总裁WillStrauss表示:“语音识别就是实时完成你想要做的事情。换句话说,就是你要求该设备能即时识别你所讲的话。当然,你亦能处理传送中的文字。一段相当长的程序,只有靠数字信号处理器才能完成。简言之,即其他设备的速度都不够快。”

在推动语音识别发展的过程中,Strauss同Motorola、AT&T等大型集成电路厂商的设计人员一样’都把数字信号处理器视为唯一途径。德克萨斯州奥斯汀MotorolaDSP部的技术销售经理TomStarnes表示:“虽然并不是非数字信号处理器不可,但它确是一种好方法。恰巧’数字信号处理器又是执行特定规则算法时效率最高的芯片。而且’它还是唯一符合成本效益率的方法’你难望用其他东西能侥幸完成工作。DSP的特点,就在于它能识别和挑出有用的东西。也就是说,它能检测出最重要’的信号,并 加以滤出’例如B泛滤出背景噪音。”


语音识别受到各类DSP产品供应厂商的大力支持。Motorola已推出了个人电脑媒介开发套件(PCMediaDe?veloper'sKit),这是一种适合软、硬件开发人员应用的开发平台’方便他们建立语音识别、语音合成引擎及扬声器和应答设备。Starnes说:“其实PCMedia正设法将数字信号处理引入个人电脑的^主机板。开发人员可以采用我们的套件把这些功能直接装人主机板,也可以用一块附加卡来实现这些功能。用:甚么方式都无关紧要。”

重要的是:通过把数字信号处理引人个人电脑,“便能提供一个引擎,而最重要的一点,就是这一引擎可以重编程序。可以先给它设置一套指令,如果需要的话,也可以重设。这是一种非常得力的引擎。”他还补.充说,该产品可以一下子取代以前需

Starnes表不:“我们只好在不同委托加工商所选择的不同DSP之.间,寻找一个折衷的方法。所以,我们必须拥有适用于不同方案的应用软件。简言之,我们必须做到不同系统的兼容。


DSP是否可有取替

当然,并非所有具备语音识别功能的方法都一律借助于DSP。替代品的确是有的,不过替代品亦有其怀疑者。Strauss表不:“有时候,人们会告诉我一些不用DSP亦可进行语音识别的新方法,但当我要求深入了解时,却再也没有消息了。”

“我已经弄清楚,所谓不用DSP芯片,实则只是不采用AnalogDe-vices、TexasInstruments等公司的现成芯片而已。因此,他们仍然在采用DSP芯片,并仍以这样或那样的方法,把DSP核心引擎结合到特殊应用集成电路中。

“我相信,将来一定会有人采取DSP以外的方法,那样做会更经济。可是,他们的设计一定会存在缺陷,总有一些地方不灵,例如无实时功能等。”

过去,由于语音识别的设计人员未具备当今的先进DSP技术,他们别无选择,只能利用当时的产品。

新泽西州BerkeleyHeights的AT&TMicroelectronics公司用户语音处理器技术销售经理ShawnBayle说:“传统的方法是用一个微控制器作为引擎。现时我们同其他公司一样,全力支持DSP方法,理由很简单:在实际环境中,必须对严重衰减的信号进行处理。如果采用微控制器,就不具备能处理各类信号失真的信号处理马力。相反,如果采用DSP,它就能全面完成信号的修正,恢复语音的重要部分。DSP顾名思义用于信号处理,微控制器则用来执行控制功能。”

对首先将语音识别应用于电话产品中的AT&T公司来说,微控制器与DSP的主要差别在于性能,因为性能优良可使消费者直接受益。

Bayle表示:“微控制器型语音识别器在理想环境中工作出色。当用户在一个无背景噪音的环境中,或使用一部手机,而说话时与嘴唇只保持几毫米的距离时,它的工作可能会很不错,但DSP型语音识别器则可在有其他信号干扰或有背景噪音的室内工作。这才是两者间的关键区别。AT&T认为,语音识别对于一个希望不必为了使用而学习操作方法的终端用户来说,意义更为深远。”

当然,语音识别还可借助于微控制器的扩展。AT&T采用带有DSP及其他元件的微控制器。

Bayle指出:“除了DSP,其他元件亦须具备语音识别能力。首先是微控制器本身。我们并不认为微控制器是一项附加成本,因为现在所有具特色的电话全都已经装有微控制器。我们认为,保存微控制器是很重要的,原因是它能让电话厂商按照电话的人体工程学来进行控制。重要的元件还包括模数数模转换器,以及外设存储器芯片。”

一部分人认为语音识别电话要采用微控制器,而另一部分人则不然。摩托罗拉的设计几乎完全依靠DSP。

Starnes称:“实际上那样并不复杂。从线路上看,不过就是某种微音器、模数数模转换器及DSP。当然,有时,DSP还接有存储器。不过,这种设计真是非常之简单。”逐步克服困难,语音识别可能大有可为,但它真要发展起来,还须经过一定的改进。

新加坡CreativeTechnology英国分公司CreativeLabsUK的技术售销专家IanSkelton表示:“有了DSP以后,语音就成了工作的重点。改进DSP,就能改进语音的吞吐量,从而减轻个人电脑的负荷和改进语音。目前我们正从事语音和多媒体等方面的研究,使之更方便用户。”

Skelton表不,多媒体就是相互间作用,“我们要尽可能地加强这一性能。”

CreativeTechnology最近宣布与Microsoft达成协议,共同开发适用於家庭和企业个人电脑的音响及DSP型产品。Skelton说:“结合我们的DSP设备,Microsoft的新操作系统,在一个基准面上更支持我们的插卡。这对用户来说是一个好消息,因为它正成为标准。迄今为止,16位市场已假定Soundblaster为标准,而现时Mi-crosoft正采用Soundblaster16作为标准。”

据东京MatsushitaResearchIn-stitute的策划经理ShojiHiraoka表示,语音识别技术还须在识别率、从周围噪音中捡出输入信号,以及扩大词汇量等方面作出改进,才能有突飞猛进的发展。

西班牙Telefonica的研发部研究员DanielTapias也认同这一观点。他解释道:“在执行过程中出现了一系列问题。首先,人们不能像你想象那样准确地表达自己的意念。出现问题时,人们总试图用连贯的语句来解释。而一旦你告诉用户,应采用一连串指令,每条10至15字,那么过程就会更复杂。因为人机对话须经过周密安排,才能令用户按你的要求准确表达。”

Telefonica的ManagerVox语音识别系统能适应用户的特殊要求,并提供呼叫转接、接收目录订单及接收有关税局报税单资料等方面的方便。

Telefonica的增值应用部经理Al?fonsoUrquiza称,ManagerVox能识别数字0至9*文字‘是’、‘不’、‘协助’。他表示:“要令用户只采用词汇表中列有的文字,这对设计人员来说是一项挑战。

例如,用户打电话要求一家公司给他送五件产品,他就要说一个‘五’字。如果他说‘给我五件’或‘只要五件’的话,系统就不会明白。因此,你提出问题时要采取一种方式,务使用户以该系统懂的处理字来作答。”

至少在目前,Telefonica希望她的系统很快就能从用户的语句中摘出有用的字眼。Tapias称:“现时,我们正在开发一种词语取舍技术,令系统得以舍弃它所不认识的字。例如,系统只懂数目字0至9,而用户说了一个数目字以外的文字,系统便会意识到该字不包括在词汇表中,那么它就不予理睬。”

Telefonica采用了AT&T32和TexasInstruments320C31DSP°Tapias表示:“这些元件速度非常慢。频谱模拟和模式配对,都是需要大量计算的操作。市场需要存取速度更高的元件,以及计算速度更快而且适合于语音识别的电路板。”

与此同时*日本Matsushita推出了两种容量大小不同的词汇识别系统,以及一种日英传译系统。

Hiraoka称,该公司还研制了一种简单而且不会因人而异的SESAME语音识别系统。该系统是单DSP型产品,采用连续线性压缩匹配(CLM-alpha)法,进行后验概率及功能的统计遥测,其方法是连续将输入语句与样板对比,而不是在语段与背景之间进行鉴别。SESAME能识别的词汇包括数目字和‘是’、‘不’等一些简单词语。

通过连续对比,计算出输入语句与语音样板之间的相似程度,然后,再将词汇的错误与重设样板相核对,从而保证语句的高效率识别。这一方法的计算次数较少,因此Matsushita便研制了一种信用卡大小的印刷电路板,其内包括DSP(该公司的MN19041型16位定点倍增管)、随机存取存储器(RAM)、可编程只读存储器(PROM)和编码解码器(CODEC)o它能识别不长于15字的语句,PROM的容量为256Kb,而且识别能力可提高至60字。

Matsushita已推出一种采用该系统的录像机编程遥控器,它可供用户口头输入信息。

为了增大词汇量,该公司已研制出一种能根据音素识别作两级核对的大量词汇语音识别器。把输入语句同预设音素样板相对比,进行输入语句的声学分析和语音分段。根据语音的规则,产生一串音素,然后,再把这一串音素同一个符号序列(对应于含有字典式符号资料的样板)进行第二次的对比。

用一个文字处理器即可轻而易举地制定和调整字典样板。识别准确率达95%,词汇量达300字。

NECCorp.最近宣布研制出Ultalker语音识别系统。该系统可实时识别1,000多个日文字。迄今为止,有十多种DSP产品按要求须达到这一识别水平,而Ultalker只采用了其中一种。

Ultalker采用NEC首创的半音节法(Demi-SyllableMethod)。DSP具有高速信号处理功能,且能执行条件转移的复杂计算。此外,还采用了一种适合于平行处理的语音识别规则系统。PD77016DSP采用0.8微米CMOS工艺,指令周期30ns(33MIPS),操作频率33MHz,输入电源5V。

Ultalker的适用范围还可包括:多媒体个人电脑、电子游戏机指令输入、蜂窝电话拨号、汽车导向和音响设备。


个人数字辅助设备剌激市场发展

Ultalker正将其应用领域推广到个人数字辅助设备(PDA)方面。Strauss称,PDA是活用语音识别的一例。事实上,它也以另一种方式工作。他说:“PDA能够大展所长的一个应用领域,就是语音识别,两者可以配合得很好。随着各种电脑器件体积的缩小,数据输入器件如键盘等亦随之小型化。所以,你想迅速将大量数据装入所用设备中,就唯有寄望于向设备口授。”

对电话机厂商来说,语音识别能如此吸引PDA,最重要的原因可能是:PDA给了设计人员一个机会,去证明语音识别对于一些菜单管理及操作模式间简单转换等系统功能是有重要意义的。

换句话说,设计者要证明,语音识别可以执行从一般拨号功能自然扩展而成的一系列新功能。

但就目前而言,利用语音识别的目的,主要是为了改进电话及进行促销。

Bayle指出:“今天,我们认为语音识别已不是最新的高科技项目,而是一种机械结构,它不仅能让用户无须查找正确电话号码即可快速拨号,还允许电话厂商推出无键快速拨号,从而降低电话成本。尽管按键非常容易,但语音识别作为一种数字式的‘硅型’解决办法,势必更为可靠。”

他说:“总而言之,语音识别降低了成本。”它还具备特点区分能力,即区分不同的电话,让厂商取得超越他人的竞争优势。

Bayle表示,除此之外*它还给设计者带来一个高集成度方案。他说:“我要强调这一点。电话机厂商正寻求出路,这是因为目前仅有免手提电话和识别呼叫器两种方式可用。厂商只是不清楚下一步该如何走。我正设法提供 答案。”
页: [1]
查看完整版本: 语音识别功能逐步普及