AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

会员服务 ·

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

2019 年 7 月 12 日 科研圈

AI 在多人扑克里超越人类的表现，为 AI 与博弈理论发展树立了新的里程碑。

图片来源：Pixabay

撰文鲁婧涵

编辑魏潇戚译引

六人无限德州扑克是世界上最流行的扑克形式。日前，卡内基梅隆大学与 Facebook AI 合作开发的人工智能程序“Pluribus”，击败了六人无限德州扑克的职业选手。

在一项包含 13 名职业选手的实验中，Pluribus 一次对战 5 名职业选手，共进行了 10,000 手牌，并最终取得胜利。这些职业选手都曾在扑克竞技游戏里赢得超过 100 万美元。

在另一项实验中，每位职业选手要对阵 5 个 Pluribus。在 5000 手牌的对阵中，Pluribus 击败了扑克专家 Darren Elias 和 Chris“Jesus”Ferguson——他们前者保持着世界扑克巡回赛冠军最多的纪录，后者赢得了 6 项世界扑克系列赛冠军。

当地时间 7 月 11 日，《科学》杂志发表了描述这一成就的论文（DOI: 10.1126/science.aay2400）。

Pluribus 由卡内基梅隆大学计算机教授 Tuomas Sandholm 与 Facebook AI 部门科学家 Noam Brown 共同开发。

Tuomas Sandholm 依托过去 16 年在卡内基梅隆大学实验室开发的战略推理技术，创立了两家公司——Strategic Machine和 Strategy Robot。前者将这些技术应用于扑克、游戏、商业和医学领域，而后者则将它们应用于国防和智能领域。

Noam Brown 在 Facebook AI 工作的同时在卡内基梅隆大学攻读了计算机学博士学位。二人早前开发了双人扑克 AI Libratus，在 2017 年击败了四名扑克职业选手。

多人博弈里程碑

“Pluribus 在多人扑克里超越人类的表现，将成为 AI 与博弈理论领域公认的里程碑，” Pluribus 开发者 Sandholm 说，“目前为止，策略推理中的超人 AI 里程碑仅限于两方竞争。在如此复杂的游戏中击败其他五名选手的能力为使用 AI 解决各种现实问题开辟了新的机会。”

Tuomas Sandholm | 图片来源：Carnegie Mellon

为什么科学家总是喜欢让 AI 在各种棋牌类游戏里进行突破？这是因为棋牌游戏自古以为都被认为是人类智力活动的象征，模仿人类的 AI 自然要以此为目标。

不过根据棋牌规则，不同棋牌类型的游戏的博弈难易各不相同。根据信息的公开程度，我们可以将棋牌博弈分为“完全信息类”和“不完全信息类”。

“完全信息类”博弈包括国际象棋、围棋等，它们的盘面信息都是公开的，对弈双方接收到的信息完全。在此类博弈中，AI 每次只需要根据当前盘面，搜索计算各种情况下自己的胜率。为了提高搜索效率，一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。就是我们平常下棋时常说的算多远和算多准。

“非完全信息类”博弈包括德州扑克、桥牌、麻将等游戏。以德州扑克为例：每个玩家有 2 张牌作为“底牌”，同时还有 5 张公共牌。玩家选择 5 张公共牌里的 3 张，与手里的 2 张底牌组合，最后以期得到最好的 5 张牌的组合。按照“Card Ranking”决定最后的胜者。

由于游戏中每个人无法看到对手手里的牌，这要求参与者具备更复杂的推理能力，不仅要看对手打了什么牌，还要猜测对手手里有什么牌，并根据对手行动暗示出的信息，来计算自己的最优出牌法。这给 AI 带来了更严峻的挑战。AI 不仅要学会根据不完全信息进行复杂决策，还要应付对手的虚张声势、故意示弱等招数。游戏的人数的也将改变 AI 的应对难度。

实验中使用的扑克游戏界面。图片来源：Facebook

在所有双人游戏里，“表现过人”的 AI 都是通过近似纳什均衡实现的。在纳什均衡里，只要另一位玩家的策略保持不变，任何人都不能从改变策略中获益。虽然 AI 的策略只能保证比赛结果不比平局更差，但如果 AI 的对手犯了错误而无法维持均衡时，AI 将取得胜利。

在两人以上的比赛中，采取纳什均衡将是一种失败的策略。因此 Pluribus 摒弃了理论上成功的保证，采取了一种新的能一直击败对手的策略。

人类做不到的策略

“进行六人游戏，而不是一对一，这需要 AI 对游戏策略进行根本改变，” Pluribus 开发者 Brown 表示，“我们为 Pluribus 的表现感到高兴，并相信它的一些比赛策略甚至可能改变职业选手的比赛方式。”

Noam Brown | 图片来源：Noam Brown

Pluribus 的算法在其策略中创造了一些令人惊讶的特征。例如，大多数人类选手会避免“反主动下注（donk betting）”——它通常被视为一种没有战略意义的弱势举动。但 Pluribus 比被它击败的职业选手更频繁地使用这一策略。

“Pluribus 的主要优势在于它能运用混合策略，”职业选手 Elias 表示，“这与人类试图做的事情是一样的。对于人类，这是执行问题——以完全随机的方式做到这一点并且持续这样做。大多数人都做不到。”

曾在扑克职业生涯里获得了近 200 万美元的收入的 Gagliano 在与 Pluribus 比赛后说：“有些策略是人类根本就不会去做的，尤其包括它的投注规模。”

Pluribus 在具有统计意义的情况下取得了稳固的胜利令 Gagliano 尤其印象深刻：“机器人不只是和一些职业选手对垒。它已经成为世界上最好的选手之一。”

有限前瞻搜索算法

进一步剖析 Pluribus 会了解到，它的各种策略是基于一种新的有限前瞻算法，这正是它能够打败多个人类扑克玩家的原因。这是完全信息博弈的标准方法，但在非完全信息博弈中却极具挑战性。

Pluribus 首先通过和 6 个它自己的副本玩的场景来计算一个“蓝图”策略，这让它能在第一轮下注。之后，Pluribus 将在更细粒度的博弈抽象中更详细地搜索可能的变动。这时，它会展望未来的几步，由于计算量的限制，它并不会推演到博弈的最后。

具体来说，在子博弈的叶子上，AI 考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。可能的延续策略的数量很多，但研究人员发现他们的算法只需要考虑每个叶子的每个选手的五个延续策略来计算强大、平衡的整体策略。

Pluribus 也试图变得不可预测。例如，如果人工智能拥有最好的一手牌，那么投注就有意义，但是如果人工智能只有在拥有最好的一手牌时才投注，那么对手就会很快赶上来。因此，Pluribus 计算出各种可能，并在所有可能性中保持平衡的策略。

尽管德州扑克是一种极其复杂的游戏，但 Pluribus 有效地利用了计算。最近在游戏中取得里程碑式进展的 AI 使用了大量服务器和 GPU；双人扑克 AI Libratus 需要大约 1500 万个小时来开发策略，在实时游戏中使用了 1400 个 CPU 核心小时。而 Pluribus 仅使用了 12,400 个核心小时就计算出了蓝图策略，并且在现场游戏中仅使用了 28 个核心小时。

面对 AI 技术的不断突破，很多人会顾虑 AI 发展对人类的威胁，然而把握技术应用大门的钥匙仍掌握在人类自己手中，正如爱因斯坦所说：“科学，究竟是给人带来幸福还是带来灾难，全取决于人自己。”

本文来自微信公众号“科研圈”。如需转载，请在“科研圈”后台回复“转载”，或通过公众号菜单与我们取得联系。