欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

AI可以识别图像 但它能理解标题吗?

科普小知识2022-06-30 07:37:16
...

2012年,人工智能研究人员发现,通过向名为ImageNet的数据库提供数百万张标签图像,计算机识别图像的能力将大大提高。这使得计算机视觉进入了一个令人兴奋的阶段,因为很明显,由ImageNet训练的模型可以帮助解决各种图像识别问题。六年后,这一进步为自动驾驶汽车在城市街道上行驶铺平了道路,并使脸书用户能够智能地在照片上标记人。

然而,在人工智能研究的其他领域,如理解语言,类似的模型已被证明难以实现。然而,来自fast.ai、OpenAI和Allen Institute的最新研究表明,这是一个潜在的突破,并且有更强大的语言模型可以帮助研究人员解决一系列未解决的问题。一个新模型的开发者塞巴斯蒂安·路德称之为该领域的“图像网络时刻”。

这些改进可能是巨大的。迄今为止,测试最广泛的语言模型是ELMO。当艾伦研究所今年春天发布ELMo时,之前的挑战很快被推翻了。例如,在阅读理解中,人工智能回答了关于一篇文章的SAT类型的问题,并进行情感分析。在一个进展通常是渐进的领域,ELMo的加入将结果的准确度提高了25%。今年6月,这一进展在一次大型会议上获得了最佳论文奖。

加州大学伯克利分校的计算机科学教授丹·克莱因是早期采用者之一。他和一个学生正在研究一个“选区解析器”,这是一个基本工具,涉及到句子语法结构的映射。埃尔默的加入让克莱因突然成为世界上最好的系统,拥有最精确和惊人的广泛的限制。他说:“如果几年前你问我是否有可能达到这么高的水平,我不确定。”

像ELMo这样的模型解决了使用语言的语言学家的一个核心问题:缺少有标签的数据。为了训练神经网络做出决策,许多语言问题需要人工标记数据。然而,产生这些数据需要时间和金钱,即使是大量的信息也无法捕捉到我们说话和写作的不可预测的方式。对于英语以外的语言,研究人员通常没有足够的标记数据来完成基本任务。

“我们永远不会得到足够的标签数据,”马修·彼得斯说,他是艾伦研究所ELMo项目组的负责人。“我们真的需要开发一个模型,能够处理混乱的、无标签的数据,并从中获取尽可能多的信息。”

幸运的是,多亏了互联网,研究人员能够从*、书籍和社交媒体上获得大量杂乱的数据。我们的策略是将这些单词输入到神经网络中,让它自己识别模式,即所谓的“无监督”方法。我们希望这些模式能抓住语言的一些基本方面——一个单词的意思或语法的基本轮廓。像使用ImageNet训练的模型一样,这种语言模型可以被精确地调整以掌握更具体的任务——例如总结一篇科学文章,将电子邮件归类为垃圾邮件,甚至为一个短篇故事生成一个令人满意的结局。

这种直觉基础并不新鲜。近年来,研究人员使用了一种叫做“单词嵌入”的技术来深入研究未标记的数据。这种技术可以根据单词在大量文本中出现的方式来映射单词之间的关系。新模型的目标是更深入地捕捉从单词到更高级语言概念的信息。陆克文写道,这些更深层次的模型对于各种语言问题有着巨大的潜力,他希望新的模型能够成为简单的“嵌入单词”的替代品。

例如,ELMo通过整合更多的上下文和在句子而不是单词的尺度上观察语言来改进单词的嵌入。这种额外的语境使模型能够很好地分析“可以”和动词之间的区别,这也意味着它已经学会了语法。ELMo通过理解单词的子单位,如前缀和后缀,得到额外的提升。正如彼得斯的团队所做的那样,它为神经网络提供了10亿个单词,这种方法非常有效。

不清楚的是模型在分析所有这些单词的过程中学到了什么。由于深层神经网络的工作模式不透明,很难回答这个问题。研究人员对为什么图像识别系统工作得这么好仍有模糊的理解。在10月份的一次会议上,彼得斯采用了一种经验方法,在不同的软件设计和不同的语言任务中测试了ELMo。彼得斯说:“我们发现这些模型学习了语言的基本属性。”然而,他警告说,其他研究人员需要测试ELMo,以确定该模型在不同任务中的稳健程度,以及它可能包含的潜在惊喜。

一个风险是用于训练他们的数据编码不正确,所以医生被标记为男性而护士被标记为女性,就像之前的文本被嵌入一样。克莱因说,虽然点击ELMo和其他模型产生的初始结果令人兴奋,但还不清楚这些结果能推进到什么程度,也许是通过使用更多的数据来训练模型,或者增加一些限制来迫使神经网络更有效地学习。从长远来看,为了让人工智能像我们一样流畅地阅读和说话,可能需要一种全新的方法。