单词错误率低至2.6％！谷歌新音频数据增强方法，直接应用频谱图

哚哚 · 发表于 2018-10-10

据外媒报道，Google AI的研究人员正在把计算机视觉应用于频谱图。SpecAugment可以在不改编基础语言模型的情况下使语音识别系统的性能达到最优。

研究人员表示，SpecAugment方法不需要额外的数据，便可有效解决模型的过拟合问题，极大的减少了计算成本。

该成果详见4月18日发表在预印本论文提交平台arXiv的论文，论文名为《SpecAugment：一种用于自动语音识别的简单数据增强方法》（SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition）。

一、新数据增强技术剑指过拟合问题
SpecAugment是谷歌AI研究人员新开发的一种数据增强的技术，这种技术不同与传统的数据增强技术，在语音识别方面，是对声波图直接进行增强，而是另辟蹊径，对转化后的声波图——频谱图进行增强。

这种数据增强的技术，能更高效地解决自动语音识别（ASR）系统模型出现的过拟合问题。

过拟合是指，随着训练次数增多模型会慢慢找出数据的模式，能在尽可能多地拟合数据点的同时反映数据趋势，如果继续训练，那模型就会进一步挖掘训练数据中的细节和噪声，为了拟合所有数据点“不择手段”。结果是，模型会对已知数据预测得很好，而对未知数据预测的很差。

通常人们采用增大数据量和测试样本集的方法来解决过拟合的问题，但这会增加计算成本。

而SpecAugment无需引入额外的数据，通过直接对频谱图数据进行增强，来解决过拟合问题，从而提升语音识别准确率。

二、SpecAugment使单词错误率降至2.6％，
在传统的ASR中，音频波在被作为网络的训练数据之前通常被编码为可视图，例如频谱图。训练数据的增强一般会应用于声波图，然后增强后的声波图会转换为频谱图，这样一来，每次增强之后，都会生成新的频谱图。

▲在馈送到网络之前，声波图通常被转换成频谱图

而在SpecAugment增强的是频谱图本身而不是波形数据。由于增强功能直接应用于网络的输入特征，因此可以在训练期间在线运行，而不会显著影响训练速度。

SpecAugment对频谱图的修改方式包括：沿时间方向扭曲频谱图、屏蔽某一些连续的频率段的信号、以及及时屏蔽某一时间段的发音。下图为示意图：

▲通过在时间方向上扭曲、并且屏蔽（多个）频率段信号（横坐标）和多个时间段（纵坐标）来增强梅尔频谱图。频谱图的屏蔽部分以紫色显示以强调。

为了测试SpecAugment，研究人员将SpecAugment应用于Listen、Attend和Spell网络进行语音识别，在衡量语音识别技术的主流开源数据集LibriSpeech 960h得到的单词错误率（WER，衡量语音识别技术水平的核心指标）是2.6％，在Switchboard 300h语音识别基准测试中得到的单词错误率为6.8％。

三、传统数据增强方法计算成本高
ASR系统能将语音翻译成文本，它应用于许多现代设备和产品中，比如Google的Alexa智能语音助手、Android智能手机发短信和电子邮件时用到的Gboard虚拟键盘服务、Google Home以及YouTube。

在开发基于深度学习的ASR系统方面仍存在许多重要挑战。其中之一是ASR模型会出现上文所提到的过拟合问题。

在语音识别方面，传统的数据增强通常用于声波图上，通过加速或减慢的手段让声波图变形，或者增加背景噪声。这种方法会让单数据的多个增强版本在训练过程中被反馈到网络中，迫使网络学习相关特征，的确会帮助网络变得更优。

然而，传统的增强音频输入的方法增加了额外的计算成本，并且有时需要额外的数据。

结语：新数据增强法提升语音识别准确率
谷歌AI研究人员Daniel S. Park和研究科学家William Chan（这两人也是论文作者）在博文中表示：虽然网络仍然可以通过不断引入语言模型达到更优，但他们的研究成果振奋人心的一点在于，在没有语言模型的帮助下，SpecAugment训练的模型超越了先前所有的方法。

谷歌SpecAugment这种新的语音数据增强技术将大幅提升语音识别的准确率。如果这项技术可以被广泛应用，相信智能语音助手将会更聪明。

帐号		自动登录	找回密码
密码			快速注册

[讨论] 单词错误率低至2.6％！谷歌新音频数据增强方法，直接应用频谱图