语音识别,什么是语音识别
语音识别,什么是语音识别
语音识别
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
通过语音控制各种设备、与电脑进行直接的交流是人类长期以来的梦想。在许多描述未来世界的电影、小说中,语音识别几乎成为了人工智能的代名词。从上世纪四十年代开始,随着数字技术尤其是电脑的飞速发展,语音识别技术成为了科学研究的热点。到八十年代,语音识别技术开始了从实验室到产品的转移。
东芝在语音识别技术领域的研发,开始于上世纪七十年代,目前已经形成了以东京-剑桥-北京为中心的全球研发体系,开发出了包括中、日、英、法、德等十四种以上语言的语音识别系统。东芝中国研发中心,从二零零一年成立以来,致力于中文(包含粤语及各种方言)语音识别技术的研发,开发了高性能的中文语音识别引擎,如下图所示:
我们的语音识别技术支持不同层次的系统要求:
1. 高鲁棒性嵌入式语音识别引擎,可以应用到各种电子设备,从而利用语音来完成电子设备的自动控制等。特别在车载环境下,利用语音来控制各种设备的"hand-free"模式已经成为语音识别技术最重要的应用之一。
东芝的嵌入式语音识别引擎结合了高性能语音端点检测技术、语音增强技术和特征补偿技术,并采用了噪声免疫训练,可以在各种噪声环境下工作;特别针对汽车背景噪声优化,在极低信噪比环境下仍可使用。该引擎无需特别训练即可供不同说话人使用,并特别针对不同地方口音进行优化,可以同时支持不同口音的说话人。除了可以完成高精度的命令词识别,东芝的嵌入式语音识别引擎支持大词汇量的地址识别,结合在线文法生成功能和语音标签功能,使得声控的汽车导航成为现实。此外,该引擎还支持中文数字串识别和人名识别等,可以轻松完成声控拨号/定位任务。引擎采用了高效的搜索算法和声学模型压缩等技术,可以在资源十分有限的条件下工作,目前已经应用到多款汽车导航系统中。
2. 语音对话系统和翻译系统中的语音听写引擎。结合语音识别/合成和机器翻译技术,不同语言间的自动语音翻译已经成为可能。
东芝的语音翻译系统,目前已经支持中、英、日三国语言的互译。作为其中重要的模块之一,我们开发了高性能的中文语音听写引擎(大词表连续语音识别系统)。该系统采用了噪声鲁棒性技术,可以应用到不同环境中。声学模型训练中采用了区分性训练,并针对不同地方口音进行了优化;高性能的自适应技术,可以在无监督的模式下有效提高对不同口音和环境的适应能力。该引擎支持大词汇量的语音听写,并提供了用户词典功能;具有高可移植性,可以为不同领域快速定制识别引擎。
常用的一些声学特征
* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。
* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。
语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。
小结
以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。