欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 自然科普

Siri、小度和小冰 它们是怎么做到和你相谈甚欢的

科普小知识2021-08-23 17:54:29
...

你认识萧冰吗?你是不是叫得太小了?你和小娜交往过吗?你用过Siri吗?如果没有,那你就出局了。他们是目前非常受欢迎的智能语音机器人,许多人已经与他们交谈。

最近,美国投资公司红树林资本合作伙伴发布了2019年语音技术报告。该报告分析了语音助理服务日益流行的原因,并预测苹果将在2020年推出Siri操作系统。那么,什么是语音技术呢?它有哪些应用?什么是语音操作系统?为此,记者采访了相关专家。

通过纯语音信息实现与机器的交互

像图像识别和机器学习一样,智能语音是人工智能的一个分支。在人工智能非常热门的时候,从西里到小规模,从小冰块到小娜,智能语音正在融入人们的生活。

所谓智能语音技术是指通过自然语音直接研究人与计算机之间有效交流的各种理论和方法,包括语音识别、内容理解、对话和问答等。一般来说,智能语音是一种使用计算机自动处理和识别语音信息的技术。

“从引擎模块来看,智能语音技术包括语音前端处理(包括语音增强)、语音识别、语音合成、语义理解对话管理、声纹识别等模块。其中,语音识别是通过计算机自动处理将语音信息转换成字符的过程,也称为语音转录,包括语音分割、端点检测、特征提取、解码和后处理中国科学院声学研究所(以下简称中国科学院声学研究所)研究员赵庆伟告诉《科学日报》。

目前,智能语音技术主要应用于智能家居、虚拟助理、可穿戴设备、智能车辆、智能客户服务、智能医疗、随行机器人等。所谓的虚拟助手是一种智能语音助手,其核心是人类可以通过纯语音信息与机器进行交互,而智能机器的“助手”可以帮助完成指定的任务。

在赵庆伟看来,语音操作系统是一个比较大胆的想法,而基于语音的人机交互具有很大的发展潜力,所以很多互联网企业对这个方向持乐观态度。目前,亚马逊已经建立了一个智能语音云平台(Alexa),拥有各种智能语音应用(8万种技能)。在这个平台上,用户可以通过语音发布一系列指令,如购物、搜索、听音乐、讲故事等。

智能语音技术的前世

事实上,智能语音技术的研究起源于20世纪50年代。1952年,贝尔实验室建造了一台6英尺高的自动数字识别机“奥黛丽”,它能识别0-9数字的发音,准确率超过90%。熟人的准确率高,陌生人的准确率低。1958年,中国科学院电子研究所声学研究室利用电子管实现了10个元音的识别。“由于当时计算能力弱,智能语音只能进行一些特别简单的字母或数字识别。”赵庆伟说。

从20世纪60年代到70年代初,语音识别研究取得了一些进展。“这时,智能语音技术开始形成系统的框架,提出了一种基于线性预测编码(LPC)技术和动态时间规整(DTW)技术的特征提取方法,并使用模板匹配方法做了一些简单的语音识别(小词汇量、特定人、孤立词)”。

从20世纪70年代中期到80年代,语音识别的框架取得了突破。统计模型逐渐取代模板匹配方法,隐马尔可夫模型成为语音识别系统的基本模型。同时,高斯混合模型也被用作声学模型的主要建模方法,连接词识别和中等词汇量连续语音识别得到了很大发展。

到20世纪90年代,已经提出了一种基本的神经网络语音识别模型。但当时,神经网络语音识别模型未能取得重大突破,主要是因为服务器的计算能力不够强,训练语音数据量不够。”赵庆伟说,20世纪90年代的神经网络语音识别模型不能取代传统方法,智能语音技术仍然以隐马尔可夫模型和高斯混合模型为基本框架。

从20世纪90年代到21世纪初,非特定、大词汇量、连续语音识别系统的研究已经成为国际语音研究的主流。1997年,IBM的第一个听写产品“通过声音”问世。只要用户对着麦克风说出想要的文本,系统就会自动识别并输出文本。

2002年,中国科学院自动化研究所推出了——帕泰克自动化系统;,一系列“天宇”汉语拼音产品。2005年,中国科学院语音研究所推出了国内首个自主开发的电信级语音识别平台,首次实现了国内语音识别软件的规模化应用。中国移动23个省份的增值业务已经推出,占据了国内80%的市场份额,使美国公司垄断中国语音识别市场成为历史。

深层神经网络框架成为主流

2010年,微软在基于深层神经网络的语音识别研究方面取得了很大进展,“识别错误率相对下降了20%以上”,服务器的计算能力大幅提升(得益于GPU的应用),训练语音数据大幅增加(得益于移动互联网和云计算的发展)。此后,深层神经网络的建模优势已经被许多国际国内知名的语音研究机构所验证。业界已经开始意识到基于深层神经网络的建模框架明显优于原有的框架识别效果。"现在大家基本上都采用了基于深层神经网络的建模框架."赵庆伟说。

近年来,基于深度神经网络的语音识别技术也经历了不断的迭代,从基本的深度神经网络到延迟神经网络(TDNN)、双向长-短时记忆(BLSTM)和卷积神经网络(CNN)。近年来,基于端到端架构(End-to-End)的语音识别系统正在被语音识别学术界和工业界深入研究。一些系统也已经上线。中国科学院声学研究所已将其最新研究成果应用于中国移动通信集团和中国电信集团的客户服务热线。智能技术直接服务于数亿客户。

据了解,中国科学院声学研究所长期致力于语音识别核心技术的研究。为了满足实时语音识别的需要,研究者提出了一种基于混合神经网络(延迟神经网络+输出投影门环单元)的低延迟声学建模技术,该技术能够处理长时间信息,网络结构简单,计算速度快,易于并行训练。该模型结构已被国际主流开源语音识别软件Kaldi采用,作为一种新的反馈神经网络结构。在非实时语音识别方面,提出了一种基于双向长短记忆扩展的深层神经网络结构,改善了现有主流长短记忆扩展的性能,解决了LSTM(长短记忆网络)在串行训练条件下对不同长度语音输入鲁棒性差的问题。