人工智能新目标:看懂视频
目前,人工智能在图像和语音识别等领域表现良好,但科学家认为这远远不够。根据麻省理工学院技术评论杂志网站最近的报道,对于人工智能的发展来说,理解视频中的动态行为是下一个关键的发展方向,这对于人工智能用其软件来理解世界是至关重要的,也有利于人工智能在医疗、娱乐和教育等领域的广泛应用。
理解图像也需要理解行动行为。
解释视频的人工智能系统,包括自动驾驶车辆中的视频,通常依赖于识别静态帧中的对象,而不是解释行为。谷歌最近发布了一个工具,可以识别视频中的对象,并且是一个云平台的一部分,该平台包括用于处理图像、音频和文本的人工智能工具。
但是对于人工智能来说,理解为什么猫会骑着Roomba扫地机器人在厨房里追逐和玩鸭子是为了展示它们的能力。
因此,科学家面临的下一个挑战可能是教会机器不仅要理解视频包含的内容,还要理解相机里发生的事情。这可能会带来一些实际的好处,例如搜索、注释和挖掘视频剪辑的强大新方法,还可能使机器人或自动驾驶汽车更好地理解他们周围的世界是如何工作的。
每个人都用视频来训练电脑
目前,科学家使用一些视频数据集来训练机器更好地理解现实世界的行为。麻省理工学院和IBM目前正在合作进行相关的研究。
去年九月,国际商用机器公司和麻省理工学院宣布成立“国际商用机器公司——麻省理工学院大脑启发多媒体机器理解实验室”。双方将共同开发具有先进视听能力的人工智能。
不久前,麻省理工学院和IBM发布了一个巨大的视频剪辑数据集。这个被称为“时间数据集时间”的视频数据集包括从钓鱼到霹雳舞的许多动作的3秒钟剪辑。项目负责人、麻省理工学院首席研究科学家奥德·奥利瓦说,世界上许多事物都在迅速变化。如果你想了解为什么有些事情会发生,运动会会给你提供很多信息。
视频长度被设定为3秒的原因是,大多数情况下,人类需要3秒来观察和理解一个动作意图,比如风吹树,或者物体从桌子上掉下来。
同样,谷歌去年也发布了一套视频YouTube-800万;由800万个有标签的YouTube视频组成。脸书正在开发名为“场景”、“操作”和“对象”的注释数据集
普林斯顿大学助理教授奥尔加·鲁萨克·维斯基专攻计算机视觉。他说,科学家以前认为很难生成有用的视频数据集,因为它们比静态图像需要更多的存储和计算能力。他说:“我很高兴能够使用这些新的数据集。3秒的时间段非常棒,它提供了一个时间背景,并且需要更少的存储和计算。”
还有其他组织在研究更有创意的方法。总部位于多伦多和柏林的初创公司“200亿神经元”已经创建了一个定制的数据集。该公司的联合创始人罗兰·塞维克说,他们还使用了专门处理时间视觉信息的神经网络。“用其他数据集训练的人工智能可以告诉你视频显示的是足球比赛还是派对。用我们定制的数据集训练的神经网络可以告诉你是否有人刚刚进入房间。”
迁移学习人工智能的未来
根据国际商用机器公司的解释,人类可以观看一段简短的视频,并很容易地描绘出视频的内容,甚至可以预测后续事件的发生,而这仍然是机器无法做到的。因此,IBM和MIT需要做的是解决机器认知和预测的技术问题,并在此基础上开发一个认知系统。
IBM的丹尼·古特弗伦德说,有效的行为识别需要机器学习某些行为,并将获得的知识应用到正在执行相同行为的情况中。这一领域的进展,即迁移学习,对人工智能的未来非常重要。此外,这项技术在实践中有很大的用处,“你可以用它来帮助改善对老人和残疾人的护理,例如,告诉护理人员老人是否跌倒,或者他们是否吃药等。”
麻省理工学院和国际商用机器公司还表示,一旦机器能够读取视频,这种具有视觉能力的先进计算机认知系统将应用于各种行业,不仅是医疗,还包括教育、娱乐和其他领域,包括复杂机器的维护和修理。(北京,12月11日,《科技日报》)