欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

AI强势开局,NLP未完待续

科普小知识2022-08-08 14:05:04
...

AI强势开局,NLP未完待续

夏伊洛

2018年初,人工智能非常“引人注目”。1月11日和12日,在斯坦福大学主办的机器阅读理解领域的*竞赛——斯坦福问答数据集挑战赛上,有史以来第一次出现了超过人类水平的机器阅读理解分数:由阿里巴巴数据科学与技术研究所(iDST)的自然语言理解(NLP)团队提交的“SLQA模型”。借助微软亚洲研究院提交的“R-NET模型”,机器阅读理解的精确匹配率分别达到82.44%和82.65%,略高于2016年人类设定的82.304%的准确率。

小队负责人普拉纳夫·拉杰普卡尔得知结果后,无法掩饰自己的兴奋。他在社交媒体上表示,这是人工智能“2018年的一个良好开端”。

“超越人”的“正确开启方式”

“阅读理解是人类认知中最重要的能力之一,也是学习知识的主要途径。为了衡量这项任务中计算机的水平,斯坦福大学的自然语言处理研究小组设计了一套数据集班,以方便自然语言处理及相关领域的研究人员进行有效评估。”1月17日,阿里巴巴iDST-NLP项目负责人石洛在接受《中国科学报》采访时表示:“阿里和微软的电磁评分都略高于人类,这在一定程度上证明了计算机所采用的方法的有效性。”

小队挑战赛被认为是行业内机器阅读理解的标准水平测试,也是该领域的*竞赛。它被称为“机器阅读理解领域的图像网”。每年,来自全球学术界和产业界的研究团队都积极参与其中,包括阿里巴巴、腾讯、微软亚洲研究院、艾伦人工智能研究所、IBM、Salesforce、Facebook、谷歌、卡内基梅隆大学、斯坦福大学等知名企业研究机构和大学。业界普遍认为,竞争将在促进对自然语言的理解方面发挥重要作用。

记者了解到,《小队挑战》已经建立了一个大规模的机器可读理解数据集(包含10万个问题),测试文章来自500多篇*文章。在阅读完数据集中的一篇短文后,人工智能需要根据文章的内容回答几个问题,然后与标准答案进行比较,以获得精确匹配和模糊匹配的结果(F1得分)。

“因为用于SqL评估的数据集有一定的限制,例如句型的难度、问题的类型、所涉及的词汇差异甚至文章中的答案等。“超越人类”的有限范围并不意味着机器已经超越了人类的阅读和理解能力。希洛认真地说:“我们更愿意将这一进展视为一个里程碑——也就是说,借助模型和算法,计算机可以阅读和理解文本。"

希洛还认为,从技术发展的角度来看,这一次机器在电磁评分上超过了人类,这也是对致力于自然语言处理的研究人员的一个巨大鼓励。

“深度学习模式在自然语言处理领域的应用——对班阅读理解任务,已经证明了它的有效性。与以往需要大量训练数据的统计模型相比,端到端深度神经网络能够更好地发现一些潜在的特征和表示,降低人工提取特征的成本希洛解释说,如果用航空业的发展来做类比,这就类似于“从螺旋桨驱动向喷气驱动的转变”。

“尽管在模型解释方面还需要进一步的研究和探索,但我们相信这是一个充满希望和挑战的方向。”希洛说。

不要盲目模仿人类思维

iDST-NLP团队提交的模型被称为“SLQA”,是该团队经过不断研究提出的“基于层次注意融合机制”的深层神经网络模型,使阿里巴巴在全球自然语言理解研究领域脱颖而出。

“SLQA模型模拟了人类在阅读理解问题时的一些行为,包括结合文本内容检查问题、反复阅读有问题的文章、避免在阅读中遗忘以及做相关注释等。,从而提高阅读理解能力希洛表示,结合上述思路,团队构建的模型在阅读理解实践中“开发”出了一个逐渐集中和全面的解决方案,最终取得了良好的效果。

这是否意味着机器能够并且开始模拟人类思维?希洛认为这种说法不准确。

“确切的说法是,用于设计机器算法和模型的方法是‘试图模拟人类的思维过程’。”希洛再次以飞机为例。当人类设计飞机时,他们受到鸟类的启发。然而,原则上,飞机的制造源于空气动力学的研究。"在空气动力学的指导下研究鸟类飞行并设计相应的飞行部件具有重要意义."

同样,Shiloh的团队在模拟阅读理解任务时并没有盲目地试图模仿人类思维,而是基于人类思维模式的启发,在机器学习的相关理论(如可学习习惯)的指导下设计了模型。“我们将机器阅读理解分解成许多与人类思维模式相对应的子问题。基于之前的理论和实验结果,我们选择了一个深度学习模型,并使用分层表示框架设计来实现这一目标。”

找个地方用

希洛说,机器阅读理解和问答技术已经在电子商务领域找到了一个合适的应用场景。“阿里小米”对交易规则的解释和“点小米”对商品的售前咨询就是例子。

在2017年的“双11”期间,许多“剁手党”抱怨说,商业活动的规则很难理解,涉及红包的“阅读理解问题”也很难回答。他们去网上商店一个接一个地咨询。然而,给他们一个清晰解释的人中有95%是机器人。

“在每一个活动中,比如‘双11’,都会有大量用户咨询活动规则。过去,阿里小米的知识运营同学都需要提前学习淘宝和天猫的规则,并从一堆规则描述和活动介绍文本中提取可能的问题。然而,通过机器阅读理解的应用,机器可以直接为用户提供规则解释服务,呈现最自然的交互模式。”希洛表示,阿里小米和点小米现在拥有和人一样的阅读和理解能力,这使得问答产品展现出真正的智能,进一步提高了服务效率。

近年来,机器人多次赢得一些考试。2017年,答疑机器人将挑战数学高考,科技大学迅飞医学考试机器人将挑战医学考试。今天,阿里巴巴和微软的自然语言处理模型赢得了“小队”。在人机战争中,机器将赢得一个又一个的胜利。它会带来什么?

“我们甚至认为研究结果可以应用到现场,这是非常值得称道的。”希洛告诉记者,所谓的胜利实际上是人类在没有期望计算机解决复杂问题的能力有多高之前,但随着技术的发展和相关研究成果的输出,人类逐渐看到了希望。"我们有时会对这一成功的应用给予过多的赞扬."

“长征的开始”

自然语言处理是实现机器视觉和人机交互的重要技术基石。机器阅读理解可以被视为自然语言处理皇冠上的一颗明珠。它已经成为学术界的一个热门研究领域。在2017年的美国公民*协会会议上,“阅读理解”成为入学论文中最受欢迎的关键词。然而,希洛认为,目前的机器阅读理解技术在解决维基式客观知识问答方面取得了较好的效果,但对于复杂的问题,“它仍处于相对初级的阶段”

“机器阅读理解将允许人类大脑不受限制地获取知识。但对于机器阅读理解中“理解和思考”的最终目标来说,这只是漫长旅程的开始希洛认为,对自然语言、知识引用、推理归因、知识映射和迁移学习的更深入总结将是机器阅读理解的未来发展方向。