AI同传离成熟还有多远
■高雅丽新宇,本报见习记者
9月21日,一篇指责HKUST迅飞“人工智能协同传播欺诈”的文章引起了社会的广泛关注。智虎的用户兼联合翻译王(Bell Wang)表示,在最近举行的2018国际创新与新兴产业大会上,迅飞在直播和直播中展示的“人工智能联合传播”实际上是他自己的现场联合传播翻译内容。
晚上,科大的迅飞在电话会议上回应说:应主办方的要求,提供了语音识别技术,译员的翻译结果被直接转录并呈现在会场的大屏幕上。同时,组织者要求在现场直播中合成识别结果,以展示最新的语音合成技术。
早在2017年,“HKUST迅飞翻译机器下岗铜川”的文章就在各大平台上爆炸,预示着同声传译行业将直接消亡,完全被HKUST迅飞机器翻译技术所取代。这一事件再次引发了一场激烈的讨论:机器翻译技术和同声传译有多大区别?
事件回溯与HKUST的回应
9月20日,贝尔·王发表了一篇文章,说“所谓智能翻译的真相应该被揭露”。他说,直播平台上的“机器同声传译”是指将同声传译人员的声音准确地转录成文本,然后合成机器声音播放给观众。
文章称,“HKUST迅飞没有事先告知带有语音识别的字幕,没有告知现场直播的同步传输是一台机器在读取同步传输的识别稿,甚至未经同意以假名使用译者的翻译结果。”
他的文章发表后,同一个圈子“炒了锅”。微博博主“樱桃羊的同声翻译”说:“所谓的“人机耦合”在实施前有没有和翻译沟通过?你有没有调查过译员是否接受这种方法?纵观整件事,译员的意见从何得到尊重?”当晚,科大迅飞回应了贝尔王的提问:“目前,科大迅飞的翻译服务主要提供两种解决方案:一是全自动翻译,即现场机器翻译同时显示在屏幕上,无需任何人工同时传输参与;另一种是人机耦合翻译模式,由机器提供拼音和翻译结果供同时传输参考。”
当机器提供转录和翻译服务时,文本显示区的标识显示为“迅飞听力-离线翻译系统”;当机器仅提供传送服务时,文本显示区的徽标将显示为“迅飞已听到”。
“其中一名同声传译人员对HKUST的交流有误解。他不清楚会议服务部门的分工和沟通,也没有听到对HKUST沟通的解释。”
为了回应HKUST的寻访,中国科学报的一名记者联系了贝尔·王,但他说他无法接受采访。至于科大迅飞提到的“应组织者的要求展示最新的语音合成技术”,他回答说:“我只能说什么,我什么也不能说。”
与此同时,记者注意到,9月21日晚,贝尔·王在《智湖》上的文章出现了修改痕迹。他在开始时说他已经修改了视频。
机器翻译能代替同声传译吗?
根据科大迅飞微信公众号的内容,目前主流的机器翻译方法被称为“统计翻译”。其基本原理是从语料库中的大量翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。
随着机器翻译技术的发展,许多人会问:机器会承担同声传译的工作吗?
HKUST迅飞的创始人兼董事长刘庆峰说:“我们希望用机器来帮助顶尖选手更好地发展他们的能力。将来机器和人必须一起工作。”
一位不愿透露姓名的专家告诉记者:“迅飞的技术在国内语音行业积累了很多,但目前的情况是人工智能还处于起步阶段,机器翻译的难点在于语音识别和语义识别。在语义识别方面,世界做得不是很好。”
“目前,机器识别单词和短语的速度比人类快,但是人类在理解和提炼意思方面比机器更好。因此,优势互补的人机耦合是一个重要的发展方向。”安迅飞在接受其他媒体采访时听到工作人员这样说。
9月21日,记者联系了迅飞首席执行官、科大消费业务集团总裁胡宇。他说,“我不会回复市场部和公共关系部。”但当天下午,胡雨在他的微博上表示:“目前,全行业机器同步传输处于前沿。不同制造商之间的竞争越来越激烈。主要原因是谁的奶酪被移走了。”
上述匿名专家认为,网络媒体对人工智能的宣传和炒作过度。“受利益驱动,一些企业利用媒体进行宣传,而网络媒体不会核实内容和信息的准确性,从而造成目前的局面。”
胡雨也在他的微博中说:“我相信大家都知道,真正的HKUST迅飞的机器同步传输和把同步传输人员的声音翻译成文字是两个完全不同的东西,每个人都明白。前者和后者都通过了大量最终用户和同步传输从业者的测试,因此我不再多说。”
专家称人工智能联播还不是一项成熟的技术。
自1989年美国成功制造第一个语音翻译系统以来,包括微软和百度在内的许多科研机构和公司都在进行人工智能翻译研究。由于人工神经网络的深入研究,人工智能同步传输技术近年来发展迅速。
"然而,这仍不是一项成熟的技术,人工智能同步传输仍有许多技术问题需要克服."中国科学院自动化研究所研究员宗告诉《中国科学》。
就目前的人工智能同步传输技术而言,在一些简单的场景中,可以实现更准确的同步语言翻译,如问路。然而,在复杂、专业、严谨的场景中,人工智能无法实现准确的翻译,无法实现“信”、“达”、“雅”。
由于语言本身的特点,词汇具有多重含义,歧义和似是而非的句子经常出现。其次,口语水平不高,有许多省略和倒置的句型。此外,说话者的口音、速度、多语言混合以及场景中其他声源的干扰也会使人工智能同时传输“不知所措”
“但最重要的一点是,机器无法准确把握说话者的意图。缺乏对语义的理解是人工智能同步传输尚未解决的一个大问题。因此,人工智能同步传输不能在高水平上取代人工翻译。”宗对说:
宗介绍,语音转换技术的主要难点是同音字的处理。不同的单词和单词有相同的发音,需要结合上下文来判断,如“保持新鲜”和“保持第一”、“反击”和“返工”。
由于语音识别技术不需要太多的语言理解,在声源干扰不大的情况下,更标准的语音可以更准确地转换成文本。"这比人工智能同步传输更加成熟和容易."宗对说:
(记者赵广利也为本文撰稿)
中国科学新闻(2018-09-26第四版)
推荐阅读