我们最近在科学报告上发表的一篇论文中,使用了博弈论的一个分支来阐明这个问题。特别是,我们研究了两种智能系统在非对称博弈这一特定情况下的行为和反应,其中包括 Leduc 扑克和各种各样的棋盘游戏,比如苏格兰场。非对称博弈也会自然地模拟某些真实场景,比如基于不同动机的买家和卖家间的自动拍卖。我们的研究结果让我们对这些情况有了新的认识,同时也展现了一种非常简单的分析方法。虽然我们的兴趣点在于这个理论如何应用于多个人工智能系统的交互,但我们相信这些研究结果也可以用于包括经济学、进化生物学和经验博弈理论在内的各个学科。
这个方法经验证在数学上很简单,可以对非对称博弈进行快速而直接的分析。
博弈论属于数学领域,用于决策者在竞争形势下分析所使用的策略。它可以在各种情况下应用于人类、动物和计算机,但通常用于人工智能多个系统情况下的“多代理”环境研究,例如多个家用机器人协作打扫房间。传统上,多代理系统的进化动力学是通过简单的非对称博弈来分析的,例如经典的囚徒困境问题,每个玩家都可以采取相同的行为。尽管这些博弈可以提供关于多代理系统如何工作的深刻思考,并告诉我们如何为所有的参与者——即纳什均衡——提供一个理想的结局,但他们不能对所有的情况进行建模。
我们的新技术使我们能够快速而简单地识别出在复杂的非对称博弈 (即每个玩家都有不同的策略、目标和奖励的游戏) 中的纳什均衡的策略。可以用“两性之战”的例子来说明这些博弈以及我们用来理解它们的新技术,这是一种博弈理论研究中常用的协调博弈。
在这里,两名玩家必须协调一个晚上去看歌剧或看电影。其中一人对歌剧有轻微的偏好,另一人对电影有轻微的偏好。这场博弈是不对称的,因为当两个人都选择执行相同的策略时,相应的奖励会根据玩家的喜好而不同。为了维持他们的友谊(或者说均衡),玩家应该选择相同的活动 (分别行动是零回报)。
这个博弈有三个均衡:(i) 两个玩家都决定去看歌剧,(2) 两个玩家都决定去看电影,(3) 混合的选择,每个玩家有五分之三的可能选择他们喜欢的选项。这种情况下最终的选择是“不稳定的”,这个可以用我们的方法快速地验证,或者把不对称博弈简化为对称博弈。这些对应的博弈本质上是把每个玩家的奖励表看作是一个单独的对称的 2 人博弈,它的均衡点与原始的不对称博弈相吻合。
在下面的图中,已经为两人标出了纳什均衡点,它使我们能够快速在不对称的博弈 (a) 中识别出最优策略,反之,也可以用不对称博弈来确定非对称玩家间的均衡点。
红点代表纳什均衡点。对于非对称博弈 (a),这很容易从两个对称玩家 (b) 和 (c) 的情节中推导出来,在所有的情节中,x 轴对应于玩家 1 选择 opera 的概率,而 y 轴则对应于第二个玩家选择 opera 的概率。
这种方法也可以应用于其他博弈,包括 Leduc 扑克,这些在论文中有详细阐述。在所有这些情况下,此方法经验证在数学上很简单,它可以对非对称博弈进行快速而直接的分析。我们希望可以帮助理解包括多代理环境在内的各种各样的动态系统。
这项工作是由 Karl Tuyls, Julien Perolat, Marc Lanctot, Georg Ostrovski, Rahul Savani, Joel Leibo, Toby Ord, Thore Graepel 和 Shane Legg 完成的。
阅读论文全文。
https://www.nature.com/articles/s41598-018-19194-4
英文原文链接:
https://deepmind.com/blog/game-theory-insights-asymmetric-multi-agent-games/
如果您觉得内容优质,记得给我们「留言」和「点赞」,给编辑鼓励一下!