机器翻译四大技术新突破 微软中英新闻翻译达人类水平
翻译没有唯一的标准答案,它更像是一门艺术。
14日晚,微软亚洲研究院和雷德蒙研究院的研究人员宣布,他们开发的机器翻译系统达到了与2017年环球新闻报道测试集newtest中英文测试集的人工翻译相当的水平。这是第一个能够在新闻报道的质量和准确性方面与人工翻译相匹配的翻译系统。
新闻测试2017测试集是由业界和学术界的团队共同开发和完成的,并在2017年的WMT17大会上发布。新闻测试集是三种翻译测试集之一,另外两种是生物医学和多模态的。
四大技术
我们知道人类可以用不同的句子来表达相同的意思,所以翻译没有标准答案。即使是两个专业的翻译,对同一个句子也可以有稍微不同的翻译,而且他们都有好的翻译。微软亚洲研究院副总裁兼自然语言计算小组组长周明说:“这也是机器翻译比纯粹的模式识别复杂得多的原因。人们可能会用不同的词来表达完全相同的意思,但他们可能无法准确判断哪个更好。”
这也是为什么研究人员几十年来一直在努力研究机器翻译,甚至许多人曾经认为机器翻译永远达不到人类翻译的水平。在过去的两年中,随着深度神经网络的引入,机器翻译的性能取得了许多显著的提高。与以往的统计机器翻译结果相比,翻译结果更加自然流畅。
据雷锋网(公开号码:雷锋网)称,微软亚洲研究院和雷德蒙研究院的三个研究小组通过多次交流与合作,将他们的研究工作结合起来,进一步提高机器翻译的质量。所使用的技术包括双重学习、研讨网络、联合培训和协议正规化。
双重无监督学习框架
双重学习是利用任务的双重结构来学习。例如,在翻译领域,我们关心从英语到汉语的翻译,也关心从汉语到英语的翻译。由于这种双重结构,这两个任务可以相互提供反馈信息,从而可以用来训练深度学习模型。也就是说,即使没有人工标注的数据,具有双重结构的人也可以做深入的学习。另一方面,这两个双重任务可以作为彼此的环境,因此没有必要与真实环境进行交互,并且这两个双重任务之间的交互可以产生有效的反馈信号。因此,充分利用双重结构有望解决深入学习和强化学习的瓶颈——训练数据来自何处以及如何与环境继续互动。
细化网络的解码过程
审议网络中的“审议”一词可视为人类阅读、撰写文章和从事其他任务的行为模式,即任务完成后,不会立即终止,而是会被反复审议。微软亚洲研究院的机器学习小组已经将这个过程应用到机器学习中。细化网络具有两级解码器,其中第一级解码器用于解码和生成原始序列,第二级解码器通过细化过程对原始句子进行打磨和抛光。后者理解全球信息。在机器翻译中,它可以根据第一阶段生成的语句生成更好的翻译结果。
联合训练:从源到目标p (y | x)和从目标到源p (x | y)
联合培训可以被认为是从源语言学习到目标语言翻译和从目标语言学习到源语言翻译的结合。汉英翻译和英汉翻译都使用初始平行数据进行训练。在每次迭代的训练中,汉英翻译系统将中文句子翻译成英文句子,从而获得新的句子对,这些句子对又可以被添加到英汉翻译系统的数据集中。同样,这个过程也可以逆转。这种双向融合不仅大大增加了两个系统的训练数据集,而且大大提高了精度。
一致性规格:从左到右P(y|x,θ->)和从右到左P(y|x,θ