欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

潘云鹤:“视觉知识”将推动AI 2.0的突破

科普小知识2022-03-19 10:11:01
...

大约80%的人类世界知识来自视觉。人们希望人工智能能像人类一样敏锐地观察、识别和预测未来的世界。中国工程院院士潘云河认为,实现视觉知识的表达、推理、学习和应用的技术将是人工智能2.0突破的重要方向之一。

最近,潘云鹤首次系统地提出了“视觉知识”的概念,并在接受《中国科学日报》采访时作了详细的解释。

《中国科学新闻》:提出“视觉知识”概念的背景是什么?

潘云鹤:视觉处理技术对人工智能发展有重要影响。

首先,近年来,图像识别水平的快速提高促进了人工智能热潮的形成。图像识别技术的突破不仅提高了计算机识别人脸、字符、指纹和生物特征、医学图像等的准确性。,也进一步推动了智能汽车、安全监控、智能交通、机器人、无人机、智能制造等广阔领域的发展。中国科学技术发展战略研究院已经按照技术分类统计了2018年中美人工智能企业的数量。可以看出,超过一半的企业提供并应用图像识别技术。

此外,传统知识表达存在明显的缺陷。早期的图像识别和计算机视觉是以图像处理技术为基础的。深层神经网络(DNN)采用数据驱动的方法学习特征表达,有效提高了图像分类和识别的准确性。

然而,作为人工智能知识表达的一种方式,深度神经网络难以解释和推理,并且由于大量的识别数据训练网络参数不可避免地会引入数据偏差。因此,我们需要研究一种新的知识表达方式——视觉知识。

这给我们带来了以下启示:数字视觉是推动人工智能发展的重要领域;更好的知识表达是促进数字视觉发展的关键技术。克服深层神经网络的缺陷是视觉知识研究的关键方向。

中国科学新闻:什么是“视觉知识”?它的特点是什么?

潘云鹤:视觉知识是一种新的知识表达形式,能够表达世界的时空结构和变化特征。计算机图形学经过长期的发展,为视觉知识的表达和操作提供了技术基础。然而,视觉知识的表达和推理需要在此基础上进行改革和重构。

迄今为止,视觉知识不同于人工智能中使用的知识表达方法。视觉概念具有原型、范畴结构、层次结构和动作结构等要素。视觉概念可以形成视觉命题,包括场景结构和动态结构。视觉命题可以构成视觉叙事。计算机图形结果的重构可以实现视觉知识的表达、推理和运算,计算机视觉结果的重构可以实现视觉知识的学习。

实现视觉知识的表达、推理、学习和使用的理论和技术将是AI 2.0取得突破的重要方向之一。

在我看来,视觉知识是不可替代的。20世纪70年代,认知心理学家对视觉记忆进行了一系列的实验和研究,说明了视觉认知的重要性和独特性。著名的实验包括谢泼德1971年的心理旋转实验和1972年的心理折纸实验、库欣1978年的心脏成像扫描实验和莫耶1973年的记忆动物大小比较实验。

一系列认知心理学实验表明,人脑记忆中的视觉知识具有一系列能力和特征:它能表达物体的空间形状、大小和空间关系,以及颜色和纹理;能够表达物体的运动、速度和时间之间的关系;它能在时间和空间上变换物体,操作和推理等。这些能力和特征缺乏语言知识。

认知心理学研究还指出,人类记忆的视觉知识远不止口头知识,对口头知识的许多理解离不开视觉知识的支持。视觉知识被归类为常识,因为它很难用语言符号来表达。然而,人工智能研究的一个主要弱点是缺乏对视觉知识的研究。因此,视觉知识的研究和应用将是人工智能2.0的一个重要发展方向。

中国科学新闻:如何构建视觉知识系统?

潘云河:视觉知识系统的建设和利用首先要解决的问题是视觉知识学习,这也是知识学习的无人区。为了建立一个系统的知识体系,自上而下的设计往往更为必要。在这个过程中,计算机视觉的研究成果如三维形状重建为系统的视觉知识学习提供了发展土壤。

然而,视觉知识学习需要进一步深化从视觉形状重构到视觉知识重构的目标,需要对现有的计算机视觉技术做进一步的研究,如:重构三维形状的层次结构,定位其在概念范畴中的位置等。

除了视觉概念,我们还应该研究视觉命题和视觉叙事的表达和学习。

中国科学新闻:视觉知识的应用是什么?

潘云鹤:从视觉识别技术在当前人工智能热潮中的广泛渗透,我们可以推断出视觉知识的应用是极其广泛的。这里我将举三个例子来说明视觉知识的各种应用。

首先是基于知识的识别方法,如图像识别。例如,“猫”,根据“猫”的视觉概念的典型和类别,使用综合推理方法自动生成猫的类别内外的各种大图像数据,并根据类别内外自动识别为正面和负面的例子。然后,用上述示例大数据训练多层神经网络。最后,利用训练好的多层神经网络对图像进行识别。

第二,基于知识的三维重建方法,如人体的三维重建。根据测量的特征点改变标准图形知识,从而形成个性化图形的三维重建。

第三,基于知识的创造,即视觉知识用于设计。例如,在设计角色时,动画、游戏、绘画和广告应用都需要它们。

事实上,视觉知识具有独特的优势:它能提供字符知识所缺乏的综合生成能力、时空比较能力和图像显示能力。它们可以为人工智能在创造、预测和人机集成方面的新发展提供新的基础动力。

《中国科学新闻》:关于视觉知识,我们未来还需要关注什么?

潘云河:建立一个可视化的知识词典是非常重要的,它是一个巨大而实用的知识平台和数据平台。它应该由全球人工智能、计算机图形学和计算机视觉科技工作者共同构建。为了顺利高效地完成可视化知识词典的构建,群体智能组织模式也是必不可少的。