打造更强更快通用人工智能技术
本报记者沈春雷通讯员刘
10月19日,《自然》官方网站在AlphaGo上发布了谷歌深度思维的最新论文,引发了激烈的讨论。近年来,以深度学习和强化学习为代表的人工智能理论和技术在许多游戏对抗领域取得了成功。从2016年到2017年,谷歌的阿尔法狗打败了世界顶尖围棋手。2017年,加拿大阿尔伯特大学开发的DeepStack和美国卡内基梅隆大学开发的人工智能系统Libratus击败了德州扑克的顶尖玩家。2017年,OpenAI的人工智能程序在Dota2游戏中击败了顶尖的人类玩家。
这些人机对抗技术也被应用在战争游戏中。在中国科学院自动化研究所的智能大楼里,有一个由年轻的科研骨干组成的团队——智能人机对抗团队。他们在智能人机对抗领域做了许多小实验,并取得了良好的效果。
战争游戏演绎系统获胜
在9月27日举行的2017年全国第一次战争游戏中,自动化开发的人工智能程序“CASIA-prophet 1.0”与来自全国总决赛前4名和当地个人游戏前4名的8名玩家在“比赛诸葛”战争游戏中激烈竞争,以7: 1的比分胜出。
自动化研究所智能人机对抗成员范告诉《中国科学》,“该项目展示了人工智能技术在游戏对抗领域的强大实力,有望推动中国游戏对抗技术的深入发展。”战争游戏演绎,被称为指导战争的“魔术师”,主要采用基于计算机的电子战争游戏系统。演绎可以运用统计学、概率论和博弈论等科学方法模拟、模拟和演绎战争的全过程,按照战争游戏规则研究和控制战争局势,增加军队打赢未来战争的机会。
这款“赛诸葛”战争游戏使用了在城市居民区遭遇公司规模的对抗场景。人工智能程序和人类玩家在完全相同的场景和同等条件下进行指挥对抗。
自动化研究所的智能人机对抗成员邢研究员说,与人类玩家相比,人工智能程序“CASIA-Prophet 1.0”可以更快更准确地做出态势判断和战略决策,减少低级错误,从而击败有经验的人类专家。
据报道,“CASIA-先知1.0”使用混合知识和数据驱动的架构来构建人工智能指挥官模型。目前,态势感知和作战决策的主要模块采用知识规则和不确定推理,第一步实现知识驱动的人机对抗和人机对抗系统。
星际争霸:人工智能竞赛体验
10月初的一个周末,由美国人工智能协会(AAAI)主办的星际争霸人工智能竞赛结束了,来自自动化研究所的智能人机对抗团队获得了第四名。
星际争霸人工智能竞赛是一项由加拿大纽芬兰纪念大学的大卫·丘吉尔组织的年度活动。今年是第八届比赛。竞赛的目的是评估实时战略游戏对人工智能的重要性。
自动化所有3个人工智能机器人(软件)条目。其中,作为一支独立的队伍参赛,由、邢、等人完成。CPAC开发的软件采用知识+数据驱动模型。另外两个机器人分别由朱元亨、唐陶珍、邵琨、李楠楠和赵董斌完成,代号分别为朱诺和基拉。CPAC以71.01%的胜率排名第四。
邢表示,《星际争霸》作为一款经典的实时战略游戏,已经成为深入学习、强化学习和认知决策等人工智能算法研究和测试的主要平台和工具。“更重要的是,游戏还提供了开发者界面。玩家可以编写自己的程序来控制游戏。人们不仅可以玩,还可以用程序来玩。”
此外,《星际争霸》中包含的科学问题包括多智能体协作、战略规划和推理、不完全信息游戏等。相关核心技术可广泛应用于金融、经济学、生物学、社会学、计算机科学、军事战略等领域。
目前,各大科技巨头争夺“XX智能游戏第一赢人类冠军”的竞争越来越激烈。人工智能的下一个目标是实时战略游戏。今年八月,谷歌的人工智能公司和阿尔法狗的创造者——深度思维,公开宣布星际争霸2将是它的下一个目标。
范指出,学院选择星际争霸来培养团队的原因是人工智能在创新的道路上需要挑战的是实时战略游戏中的“实时”和“战略”。
未来,自动化研究所的智能人机对抗团队将进一步对相关核心技术进行深入研究,创造出具有更强、更快决策和学习能力的通用人工智能技术。
智能技术的最终目的是为人民服务
“无论是战争游戏演绎还是星际争霸,我们之前都在人工智能的基础理论和方法领域做了大量的研究,团队的算法也通过这些平台得到了很好的验证。”邢说,“游戏对抗是人工智能发展的新方向。通过机-机对抗系统,可以收集和整理对抗数据,为下一步知识和数据混合驱动的游戏推理学习和训练奠定实验基础
博弈对抗问题广泛存在于军事、商业、安全、灾害应急等领域,从影响国家战略到决定有限资源下的个体竞争。游戏对抗技术已经成为许多领域的标准分析工具之一,并广泛应用于证券科学、生物学、国际关系、政治学等许多学科。
自动化研究所智能人机对抗小组的建立也是针对上述前沿应用。自去年该团队成立以来,该团队现已达到40人,平均年龄约为35岁。该小组由杨副局长和副局长任组长。其成员来自与科学研究密切相关的不同实验室(研究中心),如综合信息系统研究中心的范和模式识别国家重点实验室的邢。
目前,智能人机对抗团队从基础研究开始,关注不完全信息态势感知和群体博弈策略优化等关键技术问题,发展了基于不完全信息态势评估的不确定决策推理技术。这种技术将大大提高游戏对抗的收入和效率,使中国在游戏对抗领域与世界先进水平保持同步。
《中国科学日报》(第六版,2017年10月23日)
推荐阅读