不对称多代理博弈中的博弈理论解读

2018 年 3 月 8 日 AI前线 博弈

作者|DeepMind
译者| 孙浩
编辑|Emily
AI 前线导读:随着人工智能系统开始在现实世界中扮演着越来越重要的角色,了解不同的系统间将如何交互就很重要了。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

我们最近在科学报告上发表的一篇论文中,使用了博弈论的一个分支来阐明这个问题。特别是,我们研究了两种智能系统在非对称博弈这一特定情况下的行为和反应,其中包括 Leduc 扑克和各种各样的棋盘游戏,比如苏格兰场。非对称博弈也会自然地模拟某些真实场景,比如基于不同动机的买家和卖家间的自动拍卖。我们的研究结果让我们对这些情况有了新的认识,同时也展现了一种非常简单的分析方法。虽然我们的兴趣点在于这个理论如何应用于多个人工智能系统的交互,但我们相信这些研究结果也可以用于包括经济学、进化生物学和经验博弈理论在内的各个学科。

这个方法经验证在数学上很简单,可以对非对称博弈进行快速而直接的分析。

博弈论属于数学领域,用于决策者在竞争形势下分析所使用的策略。它可以在各种情况下应用于人类、动物和计算机,但通常用于人工智能多个系统情况下的“多代理”环境研究,例如多个家用机器人协作打扫房间。传统上,多代理系统的进化动力学是通过简单的非对称博弈来分析的,例如经典的囚徒困境问题,每个玩家都可以采取相同的行为。尽管这些博弈可以提供关于多代理系统如何工作的深刻思考,并告诉我们如何为所有的参与者——即纳什均衡——提供一个理想的结局,但他们不能对所有的情况进行建模。

我们的新技术使我们能够快速而简单地识别出在复杂的非对称博弈 (即每个玩家都有不同的策略、目标和奖励的游戏) 中的纳什均衡的策略。可以用“两性之战”的例子来说明这些博弈以及我们用来理解它们的新技术,这是一种博弈理论研究中常用的协调博弈。

在这里,两名玩家必须协调一个晚上去看歌剧或看电影。其中一人对歌剧有轻微的偏好,另一人对电影有轻微的偏好。这场博弈是不对称的,因为当两个人都选择执行相同的策略时,相应的奖励会根据玩家的喜好而不同。为了维持他们的友谊(或者说均衡),玩家应该选择相同的活动 (分别行动是零回报)。

这个博弈有三个均衡:(i) 两个玩家都决定去看歌剧,(2) 两个玩家都决定去看电影,(3) 混合的选择,每个玩家有五分之三的可能选择他们喜欢的选项。这种情况下最终的选择是“不稳定的”,这个可以用我们的方法快速地验证,或者把不对称博弈简化为对称博弈。这些对应的博弈本质上是把每个玩家的奖励表看作是一个单独的对称的 2 人博弈,它的均衡点与原始的不对称博弈相吻合。

在下面的图中,已经为两人标出了纳什均衡点,它使我们能够快速在不对称的博弈 (a) 中识别出最优策略,反之,也可以用不对称博弈来确定非对称玩家间的均衡点。

红点代表纳什均衡点。对于非对称博弈 (a),这很容易从两个对称玩家 (b) 和 (c) 的情节中推导出来,在所有的情节中,x 轴对应于玩家 1 选择 opera 的概率,而 y 轴则对应于第二个玩家选择 opera 的概率。

这种方法也可以应用于其他博弈,包括 Leduc 扑克,这些在论文中有详细阐述。在所有这些情况下,此方法经验证在数学上很简单,它可以对非对称博弈进行快速而直接的分析。我们希望可以帮助理解包括多代理环境在内的各种各样的动态系统。

这项工作是由 Karl Tuyls, Julien Perolat, Marc Lanctot, Georg Ostrovski,  Rahul Savani,  Joel Leibo, Toby Ord, Thore Graepel 和 Shane Legg 完成的。

阅读论文全文。

https://www.nature.com/articles/s41598-018-19194-4

英文原文链接:

https://deepmind.com/blog/game-theory-insights-asymmetric-multi-agent-games/

如果您觉得内容优质,记得给我们「留言」和「点赞」,给编辑鼓励一下!

登录查看更多
13

相关内容

智能系统(Intelligence system)是指能产生人类智能行为的计算机系统。智能系统不仅可自组织性与自适应性地在传统的诺依曼的计算机上运行,而且也可自组织性与自适应性地在新一代的非诺依曼结构的计算机上运行。“智能”的含义很广,其本质有待进一步探索,因而,对:“智能”这一词也难于给出一个完整确切的定义,但一般可作这样的表述:智能是人类大脑的较高级活动的体现,它至少应具备自动地获取和应用知识的能力、思维与推理的能力、问题求解的能力和自动学习的能力。
最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
【机器视觉】机器视觉全面解析
产业智能官
11+阅读 · 2018年11月12日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
4+阅读 · 2018年5月4日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关资讯
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
【机器视觉】机器视觉全面解析
产业智能官
11+阅读 · 2018年11月12日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
26+阅读 · 2018年8月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员