博弈论如何让人工智能变身“赌神”

科普小知识2022-07-19 11:52:02

...

新华社——经过20多天的激烈战斗，四名*德州扑克玩家有些孤独:他们最终输了。这一次，打败他们的“赌徒”是卡内基梅隆大学开发的人工智能“天平”。

经过每天近11个小时的比赛，人类运动员仍然不顾疲惫地讨论第二天的策略，但是人工智能似乎能够猜出他们的想法。每当他们欣喜地发现人工智能中的一个战略漏洞时，这个漏洞就会在第二天被填补。

匹兹堡的一家赌场已经成为“人机战争”的最新战场，在这场战争中，天平动斯与四名人类玩家玩了120，000手一对一无限制德州扑克。比赛从1月11日持续到1月30日。比赛结束时，人工智能领先人类选手总计约177万美元。

今年早些时候，加拿大阿尔伯塔大学和捷克*的研究人员开发了人工智能“深度堆叠”，首次在一对一无限注德州扑克中击败了职业玩家。

在过去20年左右的时间里，象棋、中国象棋、拼字游戏、围棋...人们的情绪见证了人工智能逐渐落入人类智能的堡垒。然而，下棋和打牌，人工智能只玩吗？

事实上，就像益智游戏有利于儿童成长一样，象棋和纸牌游戏是帮助人工智能“发展智能”的一种手段，而不是一个目标。不同的游戏对人工智能提出了不同的技术挑战。

赢了两局的阿尔法围棋，旨在培养人工智能基于复杂信息的决策能力。围棋中大约有10到170个决策点，这是所有国际象棋游戏中最多的。它需要具有强大计算能力的人工智能，通过预测未来所有步骤的成功率来做出决策。

围棋是一种“完美的信息”游戏。信息是完全公开的。玩家可以看到棋盘上的棋子并预测失败的可能性。然而，德州扑克玩家有其他玩家看不到的牌，所以这是一个“不完全信息”游戏，需要更复杂的推理能力，对人工智能更具挑战性。

此外，如果你想玩好德州扑克，人工智能需要了解一些心理学。德州扑克有一个经典的策略——虚张声势，即在拿着弱牌时提高虚张声势以吓跑对手。对手在虚张声势吗？你什么时候想虚张声势而不被识破？所有这些都为编写人工智能程序带来了挑战。

德州扑克“人机大战”也有人工智能的历史，这是不可回忆的。卡耐基梅隆大学开发的人工智能早期版本“克劳迪奥”在2015年的比赛中输给了人类玩家。那么，在《复仇》中，回归“*女神”的成功之处是什么？

事实上，“解放”这个名字暗示了它胜利的秘密。拉丁语的意思是“平衡”，代表程序使用的平衡游戏。奥斯卡获奖影片《美丽心灵》的英雄原型约翰·纳什在20世纪50年代提出了“纳什均衡”理论，也称为非合作博弈均衡，以确保每个参与者的策略是同时对其他参与者的策略的最优反应。

德州扑克是一个“不完美的信息”游戏，不能计算下一步做出像玩围棋那样的决定的所有可能性。研究人员对人工智能算法进行了改进，让它通过均衡博弈来决定下一步的风险和收益，从而达到纳什均衡定义中的完美状态。此外，研究人员已经提升了人工智能的计算能力。

然而，机器学习技术仍然是近年来人工智能快速发展的关键。开发人员说，他们没有教“Libratus”如何玩扑克，只是告诉它扑克的规则，让它通过数万亿次的自我斗争找到获胜的策略。在比赛日的每一个晚上，开发者还将把它连接到匹兹堡的超级计算机上，以改进它的算法，这就是为什么它总是能在人类对手检查和平衡自己之前领先。

除了在牌桌上赢得人气，掌握了博弈论的人工智能在现实生活中也非常有用，比如金融交易、拍卖、政治和商业谈判、军事或网络安全战略以及医疗计划规划。将来，当需要根据“不完全信息”做出战略决策时，人工智能可能会给出最佳解决方案。(彭倩)

中国科学新闻(2017-02-08第二版国际版)

上一篇：未来之罪(九)

下一篇：七里香黄叶的原因和处理办法