欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 自然科普

阿尔法狗再进化:自学3天,就100:0碾压李世石版旧狗

科普小知识2022-04-29 22:08:36
...

伦敦当地时间10月18日18: 00(北京时间10月19日01: 00),阿尔法戈再次出现在世界*科学杂志《自然》上。

一年多以前,AlphaGo是2016年1月28日本期的封面文章。Deepmind发表了一篇轰动性的论文,介绍了击败欧洲围棋冠军范辉的人工智能程序。

今年5月,阿尔法戈在以3比0击败中国棋手柯杰后宣布退役,但深智并没有停止学习。伦敦当地时间10月18日,深度思维团队发布了最强版本的AlphaGo,代号为AlphaGo Zero。它独特的秘籍是“自学”。此外,从一张白纸开始,从零开始学习,在短短3天内成为顶尖选手。

该团队表示,AlphaGo Zero的级别已经超过了AlphaGo的所有先前版本。与曾经赢得韩国棋手李世石的阿尔法围棋版本相比,阿尔法围棋零盘以100比0的绝对优势胜出。深度思维团队在10月18日的《自然》杂志上发表了一篇关于阿尔法零号的相关研究论文。

“AlphaGo在两年内取得了惊人的成绩。目前,AlphaGo Zero是我们最强的版本,它已经改进了很多。零提高了计算效率,并且不使用任何人的围棋数据,”阿尔法围棋之父、深度思维联合创始人兼首席执行官戴密斯·哈萨比斯说。“最终,我们希望利用其算法突破来帮助解决紧迫的现实世界问题,例如蛋白质折叠或设计新材料。如果我们能够通过AlphaGo在这些问题上取得进展,那么它就有潜力促进人们理解生活,并以积极的方式影响我们的生活。”

不再受人类知识的限制,只有4个TPU

AlphaGo的前一版本将数百万人类围棋专家的棋谱与强化学习的监督学习相结合,进行自我训练。

在打败职业人类围棋手之前,它依靠多台机器和48个TPU(谷歌专门为加速深层神经网络的计算能力而开发的芯片)进行了几个月的训练。

阿尔法零号的能力在此基础上有了质的提高。最大的区别是它不再需要人类数据。换句话说,它从一开始就没有接触过人类的棋谱。R&D队只允许它在棋盘上*下棋,然后进行自我游戏。值得一提的是,AlphaGo Zero也非常“低碳”,只使用一台机器和四个TPU,这大大节省了资源。

阿尔法零号在强化学习下的自我游戏。

经过几天的训练,AlphaGo Zero已经完成了近500万套自我游戏,并且已经超越了人类,击败了AlphaGo以前的所有版本。深度思维团队在官方博客上说,Zero用更新的神经网络和搜索算法进行了重组。随着培训的深入,系统的性能逐步提高。自我游戏的结果越来越好,同时,神经网络也越来越精确。

阿尔法零号获取知识的过程

“这些技术细节比以前版本更好的原因是,我们不再受人类知识的限制,可以向围棋领域的最高玩家——阿尔法戈学习。”AlphaGo团队负责人戴夫·大卫·席尔瓦说。

根据大卫·席尔瓦的说法,阿尔法零号使用了一种新的强化学习方法来成为一名教师。一开始,系统甚至不知道围棋是什么,而是从一个单一的神经网络开始,通过神经网络强大的搜索算法自己玩。

随着自我博弈的增加,神经网络逐渐调整以提高其预测下一步的能力,最终赢得比赛。此外,随着训练的深入,DeepMind团队发现AlphaGo Zero也独立地发现了游戏规则,并提出了新的策略,为古老的Go游戏带来了新的见解。

自学3天打败了旧版本的AlphaGo。

除了上述差异,AlphaGo Zero在三个方面明显不同于以前的版本。

阿尔法go-零训练时间表

首先,AlphaGo Zero只使用棋盘上的黑白子元素作为输入,而上一代只包含少量手动设计的特征输入。

其次,AlphaGo Zero只使用一个神经网络。在以前的版本中,AlphaGo使用“战略网络”来选择下一步行动,使用“价值网络”来预测每一步行动后的赢家。然而,在新的版本中,两个神经网络被合并成一个,这样它可以被更有效地训练和评估。

第三,AlphaGo Zero不使用快速、随机的行走方法。在以前的版本中,AlphaGo使用了一种快速行走的子方法来预测从当前情况下哪个玩家将赢得比赛。相反,新版本依靠其高质量的神经网络来评估国际象棋形势。

AlphaGo的几个版本的排名。

据哈萨比斯和席尔瓦称,上述差异帮助新AlphaGo改进了系统,而算法的改变使系统更强大、更有效。

经过三天的自我训练,阿尔法零号以100:0的成绩击败了之前以100:0击败李世石的阿尔法零号。经过40天的自我训练,阿尔法围棋零分再次击败了阿尔法围棋大师版。“大师”打败了世界顶尖围棋手,甚至是世界头号棋手柯杰。

对于希望用人工智能来促进人类社会进步的深度思维来说,围棋并不是阿尔法围棋的终极意义。他们的目标一直是使用AlphaGo来创造一个宇宙探索的终极工具。AlphaGo Zero的推广让DeepMind看到了利用人工智能技术改变人类命运的突破。他们目前正与英国医疗机构以及电力和能源部门积极合作,以提高医疗效率和能源效率。

特别声明:转载本文仅用于传播信息,并不代表本网站的观点或确认其内容的真实性。如果其他媒体、网站或个人从本网站转载,他们必须保留本网站注明的“来源”,并承担版权等法律责任。如果作者不希望被重印或联系重印费,请联系我们。