欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

谷歌又搞出了新围棋AI

科普小知识2022-10-17 10:42:03
...

当谷歌深度思维的阿尔法狗诞生时,人类了解了现代人工智能的恐怖潜力。从那以后,DeepMind每隔几个月就发布一篇轰动一时的论文。从阿尔法狗到阿尔法零,进步的速度让观众震惊。

也许正是因为深度思维的人工智能技术在不同阶段取得了频繁的突破,这逐渐让公众感到厌倦。几天前,谷歌创造了另一个MuZero,关心它的人并不像开始时那么多。

也许关键就在这里:在国际象棋中,阿尔法狗已经结束了对人类的虐待,然后阿尔法零已经结束了对狗的虐待,在阿尔法零之后肯定会有新的人工智能...所以在过去,没有什么新鲜事。此外,它是超越人类的障碍,很难刺激公众超越人类数万倍或数百万倍。

嗯,说了这么多,穆泽罗有什么特别的,值得单独提及吗?

把它整理出来。

第一只阿尔法狗向人类学习围棋,并最终超越了人类。我们可以把它视为人类前进的顶峰。

后来,阿尔法零独自发展了围棋理论,只知道规则,并最终超越了狗。它是第一个真正意义上的人工智能围棋大师,它的成就与人类围棋的历史无关。

对穆泽罗来说,它对围棋一无所知!这是棋盘上棋子的随机放置,工程师们在几个节点上对其稍加归纳,使其有所偏差。最后,穆泽罗发明了围棋!

除了发明围棋,它还以更快的速度发展了更精彩的国际象棋理论。它是人工智能世界中围棋的创造者。

直觉上,穆泽罗有内在的驱动力——精确设计游戏规则的能力。

正如深度思维研究人员所解释的,强化学习的一种形式——模型是MuZero和AlphaZero的核心技术,其中奖励系统将人工智能带到目标。

通常,基于模型的强化学习侧重于直接在像素级对观察流建模,但是这种粒度级在大规模场景计算中非常昂贵。从根本上说,MuZero将接收观察结果(即Go板或Atari屏幕的图像),并将其转换为隐藏状态。通过接收先前状态和假定的下一个动作的过程,隐藏状态被迭代地更新,并且在每个步骤中,模型给出对策(例如,下棋)、价值函数(例如,预期的赢家)和奖励(例如,通过玩游戏得分)。

穆泽罗玩阿尔法零。前者的搜索步骤更少,但更微妙,因为它对go有更深的理解。它不仅比阿尔法零强,而且在架构上更简单和更有效。

DeepMind认为现实生活中的许多问题(如库存和军事行动)没有明确的规则,或者规则随时会改变。因此,未来的决策需要由人工智能自己做出。这是他们的研发方向。

这篇文章是从文图拉比特翻译过来的,由基于知识共享的翻译家马杰尔发表。

原名:穆泽若:又一次发明围棋的艾。