人工智能“自学”做翻译
计算机可以很快或很好地翻译更多的语言。资料来源:iStock.com/Lightcome
由于神经网络的发展,人类大脑启发的计算机公式,自动化语言翻译已经存在了相当长的时间。但是训练这些网络需要大量的数据:数以千万计的逐句翻译来展示人类是如何完成这项工作的。现在,两篇新论文表明,神经网络可以在没有平行文本的情况下学习翻译——这是一个令人震惊的发展,可以让人们获得许多不同语言的文献记录。
“想象一下,你给一个人很多中文和阿拉伯文的书,没有任何重叠,然后一个人需要学会把它们从中文翻译成阿拉伯文。这听起来不可能,不是吗?”其中一项研究的第一作者、西班牙圣塞瓦斯蒂安的巴斯克地区大学(UPV)的计算机专家米克尔·阿特克斯说,“但是我们已经证明计算机可以做到这一点。”
大多数机器学习——从经验中学习的神经网络和其他计算机公式将被“监督”计算机将进行推测,然后得到正确的答案,并相应地调整相应的过程。当教计算机如何在英语和法语之间翻译时,这种模式非常有效,因为许多文档都是以两种语言存在的。然而,它不适用于稀有语言或没有许多平行文本的通用语言。
这两篇未经同行评审的新文章已提交给明年的国际学习代表大会。他们关注另一种方法:不监督机器学习。起初,计算机在没有人类老师告诉他们预测是否正确的情况下,就建立了双语词典。这是因为语言在词汇组合上有很强的相似性。例如,在各种语言中,桌子和椅子这两个词经常一起使用。因此,如果计算机把这些共同出现的事物描绘成一幅巨大的城市路线图,那么不同语言的地图将会彼此相似,只是它们有不同的名称。通过这种方式,计算机可以找到最好的方法将一个地图集覆盖在另一个地图集上。看!一本双语词典出现了。
这两篇文章使用非常相似的方法,可以在句子层面上翻译。他们都使用两种训练策略,即重译和去噪。在重译中,一种语言的句子被粗略地翻译成另一种语言,然后再翻译回原语言。如果翻译后的句子与原句子不一致,神经网络将进行调整,使其在下一次翻译时更加准确。去噪类似于重译,但它不是从一种语言翻译到另一种语言,然后再翻译到原始语言,而是给句子增加噪音(重新排列或删除单词),并试图将其翻译成原始语言。这两种方法的结合教会了网络更深层次的语言结构。
然而,这两种技术之间也有一些细微的差别。UPV系统在训练过程中进行了更多的重译。另一个由法国巴黎的脸书电脑科学家和他们的合作者开发的系统为翻译过程增加了一个额外的步骤。在把它“解码”成另一种语言之前,两种系统都会把一种语言的句子编码成更抽象的表示,但是脸书的系统会验证中间的“语言”是真正抽象的。阿特塞和阿特塞都表示,他们可以通过在对方的论文中应用这些技术来改善他们的结果。
在这两篇文章的唯一直接比较中,来自同一组的大约3000万个句子被翻译成英文和法文,并且两个系统在双向翻译中获得了15个双语评价分数(用于衡量翻译的准确性)。这个分数没有谷歌翻译(系统使用的监督方法有40分)高,也没有人工翻译(超过50分)高,但比逐字翻译好得多。作者说,这两个系统可以很容易地改进成为“半监督”,即增加成千上万个平行句子的训练。
除了跨语言翻译不需要平行文本这一事实之外,阿特克斯和兰普尔都表示,他们的系统有助于英语和法语之间的共同翻译匹配,尤其是如果平行文本是同一类型的话,比如新闻报道。但是除此之外,人们也希望将其翻译成不同类型的文本,比如街头俚语或医学术语。“但这一切仍处于初级阶段。”“我们刚刚开始一个新的研究途径,我们还不知道它会走向何方,”阿特克斯的合著者埃内科·阿吉雷说。
中国北京的计算机科学家迪贺(Di He)的工作影响了上述两项研究,他说:“令人惊讶的是,计算机可以在没有人监督的情况下学习翻译。”Artetxe说,他的方法和Lample的方法上传到arXiv预印服务平台的时间只有一天,这是一个惊人的巧合。"同时,这也意味着这种方法确实是在正确的方向上."(冯编)
阅读更多
科学相关报道
上一篇:日本部分医院试用人工智能翻译系统
下一篇:张香桐:病中翻译《朱子家训》