欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 教育教学

机器学习已能翻译失传已久的语言

科普小知识2021-12-13 03:11:23
...

破译这一遗失已久的语言一直是考古学家和语言学家关注的焦点和难点。随着大型注释数据库的应用和机器学习技术的发展,人们开始思考机器是否能帮助破译久违的语言。最近,麻省理工学院的罗家明和雷金·巴尔兹利以及加州山景城谷歌人工智能实验室的曹源团队发明了一种机器学习系统,可以破译丢失的语言,并用来破译线性字符b

1886年,英国考古学家亚瑟·埃文斯在地中海的克里特岛发现了刻有奇怪的未知语言铭文的古代石头。这块石头上刻有直线形的字母A和b

直线A可以追溯到公元前1800-1400年,当时该岛在青铜时代被米诺斯文明统治。公元前1400年,当该岛被来自希腊大陆的迈锡尼人征服后,线性B出现了。多年来,考古学家一直试图破译这些古代文献,但都失败了。直到1953年,业余语言学家迈克尔·文崔斯才破解了线性字符b

然而,破译旧的线性字符A仍然是语言学中一个引人注目的问题。

罗家明等人发明的机器学习系统通过破译线性字符B证明了该系统的有效性——这是机器第一次完成自动破译。它的实现方法不同于机器翻译技术。

一台机器在不知道它的意思的情况下如何翻译?

无论机器翻译是哪种语言,其原则都是从目标语言中找出与源语言词汇相对应的词汇,从而首先映射出特定语言的对应关系。这个过程需要一个庞大的文本数据库。机器搜索文本库,找出每个单词和与之相邻的每个单词的出现频率。每个词可以看作多维参数空间中的一个向量,作为限制机器翻译中出现的相应词的形式的约束条件,这些向量将遵循一些简单的数学规则。

机器翻译的关键是不同语言中的单词在它们各自的参数空间中占据相同的“点”。这使得从一种语言到另一种语言的一对一映射成为可能。因此,翻译句子的过程就是在这些空间中寻找相似轨迹的过程。机器甚至不需要“知道”这些句子的意思。

罗家明等人开发的机器学习系统的约束条件与语言发展的方式密切相关。原则是任何语言只能以特定的方式改变——例如,相应语言中的符号以相似的分布出现,相应的单词以相同的字符顺序排列,等等。有了这些规则绑定机器,只要你知道源语言,就很容易破译。

为了更好地测试这项技术,罗家明等人使用了两种正在消失的语言——线性B语言和Ugarte语言。线形字符B记录了古希腊的早期形式,而1929年发现的乌加特是希伯来语的早期形式。

实验表明,罗家明等人研究的机器学习系统能够非常准确地翻译这两种语言。“在解码过程中,我们可以准确地将67.3%的线性字符B的同源词翻译成相应的希腊语。”他们说,“我们的实验是机器自动破译线性字符b的首次尝试。”

然而,他们没有提到线性字符A的破译。许多语言学家认为线性字符A的研究具有重要意义。因此,在机器能够破译线性字符a之前,仍然需要重大的研究突破

尽管没有源语言,新技术也行不通,但机器翻译的最大优势在于它能不知疲倦地快速检测出一种又一种语言。因此,罗家明和他的团队可能会用粗略的近似法来破译线性字符A,试图把它破译成机器翻译中已经使用的每一种语言。

(田小雨)

《中国科学报》(2019-07-18,第7版信息技术)