欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

AlphaGo Zero

科普小知识2021-11-23 04:41:27
...

2017年10月19日,DeepMind公布了他们最新版AlphaGo论文,文中透露最新版本的AlphaGoZero,使用纯强化学习,将价值网络和策略网络整合为一个神经网络,3天训练后就以100比0击败了上一版本的AlphaGo,也就是那个4-1战胜李世石的版本。

1、基本概念

2017年10月19日,DeepMind公布了他们最新版AlphaGo论文,文中透露最新版本的AlphaGoZero,使用纯强化学习,将价值网络和策略网络整合为一个神经网络,3天训练后就以100比0击败了上一版本的AlphaGo,也就是那个4-1战胜李世石的版本。

2、背景介绍

2017年5月乌镇围棋大赛时,DeepMindCEOHAssabis表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo——AlphaGoZero的技术细节。

AlphaGoZero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。

AlphaGoZero证明了即使在最具挑战的领域,纯强化学习的方法也是完全可行的:不需要人类的样例或指导,不提供基本规则以外的任何领域知识,使用强化学习能够实现超越人类的水平。此外,纯强化学习方法只花费额外很少的训练时间,但相比使用人类数据,实现了更好的渐进性能(asymptoticperformance)。

在很多情况下,人类数据,尤其是专家数据,往往太过昂贵,或者根本无法获得。如果类似的技术可以应用到其他问题上,这些突破就有可能对社会产生积极的影响。

3、AlphaGo小传

姓名:AlphaGo(Fan,Lee,Master,Zero)

别名:阿老师,阿尔法狗

生日:2014年

出生地:英国伦敦

1击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature

2击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段

3排名短暂超越柯洁

2016年7月18日,AlphaGo在GoRatings网站的排名升至世界第一。但几天之后被柯洁反超。

4化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜

5战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,最新的强化版AlphaGo和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

上一篇:冤家夫妻

下一篇:星阵