会打电话的AI: 不值得大惊小怪
“语言互动是智能说话者的核心功能。智能扬声器的销量正在飙升,大量语音交互将带来各种数据样本。目前,研究界正试图突破自然语言处理的困难。虽然从事这项研究的人更多,研究条件也很好,但语言理解的理论瓶颈和语义鸿沟暂时还不能解决。”
最近,谷歌在输入输出开发者大会上展示了有争议的双工人工智能。它通过电话完成了餐馆和发廊的预订,没有被对方“发现”。然而,过于干净的对话环境也引起了一些人对视频真实性的争论。
语音合成技术能够“混淆真假”吗?语音互动取得突破性进展了吗?人和机器能像水流一样相互回答吗?在这次展示之后,旁观者的惊讶、怀疑和担忧涌上心头。
技术祝福——智能扬声器的爆炸式增长
“与触摸和按钮操作相比,语音交互更加直接、方便和快捷。由于人工智能产业的快速发展,语音和语义识别变得更加准确。”智能设备制造商的负责人赵明告诉《科技日报》。技术进步为智能音箱的商业化提供了支持。
智能扬声器的基本功能是提供与人类语言互动、播放媒体音频和智能家居的统一入口。语言互动是核心功能。对于用户来说,智能扬声器可以用来查询天气,听音乐,以及做一些简单的问答。对于制造商来说,智能扬声器更为重要:在语音时代,它们是重要的交通入口,产生大量数据,并将用户牢牢固定在自己的生态链中。
自2014年亚马逊的Echo智能扬声器问世以来,这款智能家居产品在过去几年里爆炸式增长,巨头们纷纷涌入。智能音箱发展史上的重要产品不断涌现:谷歌首页、苹果HomePod、国外微软Invoke、京东丁咚、国内联想音箱、喜玛拉雅小雅、阿里巴巴天猫精神、小米萧艾的同学等。据赵明称,全球智能扬声器市场在过去几年发展迅速,从2015年的255万台增长到2017年的3000万台。去年,中国智能扬声器市场销售176万台,销售额4.9亿元,市场潜力明显。
回声——主要的单一产品功能
据赵明介绍,亚马逊作为智能扬声器领域的领先厂商,在现有优势和技术壁垒下,通过将Alexa语音助理与其他软硬件服务相连接,形成了一定的业务体系。亚马逊在电子商务方面有着深厚的基础,在内容、硬件、平台、云计算、物流存储等领域都有所建树。它通过智能音箱整合软件、硬件、平台和内容资源,进一步激活电子商务资源。
“亚马逊Alexa平台和云计算平台为开放多种服务链奠定了基础。硬件操作、软件应用程序以及内容查看和收听中的大量数据得到有效收集和整理,以实现内容和服务的个性化。”赵明表示,亚马逊在中文语音识别方面缺乏布局,目前还没有进入中国市场,但其发展为中国市场提供了借鉴。大多数制造商将回声作为设计智能扬声器的基准。
然而,据赵明介绍,智能家居行业仍处于整体发展的中、早期阶段。行业标准尚未形成。巨人平台标准难以统一,给智能家居的普及带来了很大的困难。“目前,人工智能水平相对有限。许多智能家庭已经实现了基本的人工智能功能,但它们相对简单,用户体验也不理想。”
此外,中国科学院自动化研究所的研究员王金桥表示,汉语语音互动存在更多特殊障碍:汉语方言和口音太多,交流非常困难,语义鸿沟难以弥合。“市场上的智能扬声器很‘傻’,只能用来搜索和回答一些常规问题,无法理解逻辑、上下文等。每个人都在家里买了几天,新鲜的没有用。在全国300多家智能扬声器制造商中,没有一家赚了钱。”王金桥说。
玲珑科技CEO魏强也对媒体表示,目前消费者普遍反馈智能扬声器存在远场识别能力差、误唤醒率高、持续对话功能不稳定、语义理解差、音质差等问题。看似热门的智能扬声器行业正面临诸多挑战,如创新能力弱、产品体验差、内容和技能不足、用户意识低等。
简单场景中的有限级人机交互
谷歌对双工人工智能的展示引发了真实或不真实的争议:人们注意到,两位女员工都没有在电话中提到他们公司的名字,而且在这两个录音中也没有环境噪音。然而,谷歌没有评论是否编辑了电话录音。
对于双工人工智能的表现,王金桥说:“这只是一个效果。不能说这台机器通过了图灵测试,也不代表理论上的突破。此外,真实性尚未得到验证。如果这是真的,那就是真正高级的自然语言理解,这表明每个人都在朝着自然语言处理的方向努力。”
斯皮策公司副总裁、语音互动科学家Chumin表达了类似的观点。“预约过程并不困难,这是一个简单的人机交互场景。这只是角色的转换。这不是我们常见的“人问机器”,而是“机器问人”,这引起了激烈的讨论。楚明说。
楚明表示,谷歌展示的“机器预定餐厅和发廊”一定是可以实现的,没有被对方认可,说明语音合成效果不错,但总体来说,整个过程“没有出现挑战性的问题”——如多任务切换、跨场景、噪音、语境逻辑理解等。她还对视频的真实性表示怀疑:“餐厅听起来很乱,但视频中没有背景噪音,所以不排除演出的可能性。”
质变——自然语言处理技术需要突破
自然语言处理是语音交互的核心技术,也是过去30年来难以突破的难点。一般来说,这项技术是“让机器理解人”王金桥认为,自然语言处理的核心是理解,希望机器能够理解人类的语言和目的。然而,每个人都是个性化的。说话的优先顺序,压力的位置,以及看日落时的个人快乐或悲伤的感觉都超出了当前机器的理解范围。特别是在汉语语境中,常见的双关语、倒装、句子简化等。有时不被人们理解,对机器来说更难理解。
Chumin说,语音交互背后有许多环节,如语音识别、自然语言理解、对话管理、自然语言生成等。只有与各个环节充分配合,才能达到良好的互动效果。“我们已经可以处理比谷歌显示的约会更复杂的互动,但结果不太好。”楚明说。
“对机器的认知推理和理解是一个系统的处理项目,是各种复杂算法的结合,仅靠一种技术是无法解决的。”王金桥说。目前,在有限的场景中更可行的自然语言处理,如儿童公司和主题细分语料库,可以实现智能交互。中国科学院院士谭铁牛也谈到,人工智能正处于从“不可用”到“可用”的技术拐点,从“非常可用”到“非常可用”还有很多瓶颈。“像‘那辆白色的车是一辆黑色的车’和‘你能穿多少’这样的表达不能被机器准确理解和翻译。”谭铁牛说。
语言交互是智能音箱的核心功能。智能扬声器的销量正在飙升,大量语音交互将带来各种数据样本。“目前,研究界正试图突破自然语言处理的困难。虽然从事这项研究的人更多,研究条件也很好,但语言理解的理论瓶颈和语义鸿沟暂时还不能解决。”王金桥说。