When solving two-player zero-sum games, multi-agent reinforcement learning (MARL) algorithms often create populations of agents where, at each iteration, a new agent is discovered as the best response to a mixture over the opponent population. Within such a process, the update rules of "who to compete with" (i.e., the opponent mixture) and "how to beat them" (i.e., finding best responses) are underpinned by manually developed game theoretical principles such as fictitious play and Double Oracle. In this paper we introduce a framework, LMAC, based on meta-gradient descent that automates the discovery of the update rule without explicit human design. Specifically, we parameterise the opponent selection module by neural networks and the best-response module by optimisation subroutines, and update their parameters solely via interaction with the game engine, where both players aim to minimise their exploitability. Surprisingly, even without human design, the discovered MARL algorithms achieve competitive or even better performance with the state-of-the-art population-based game solvers (e.g., PSRO) on Games of Skill, differentiable Lotto, non-transitive Mixture Games, Iterated Matching Pennies, and Kuhn Poker. Additionally, we show that LMAC is able to generalise from small games to large games, for example training on Kuhn Poker and outperforming PSRO on Leduc Poker. Our work inspires a promising future direction to discover general MARL algorithms solely from data.


翻译:当解决双玩者零和游戏时,多试剂强化学习(MARL)算法(MARL)的算法往往会形成一个代理商群,在每次迭代中,发现一个新的代理商是针对对手群中混合的最佳反应。在这个过程中,更新“谁与谁竞争”(即对手混合)和“如何击败他们”(即找到最佳反应)的规则得到了人工开发的游戏理论原则的支持,比如假游戏和双甲骨文。在本文中,我们引入了一个框架,即仅LMAC,这个框架的基础是以新渐变的基底基底基底基底基底,让更新规则的发现不具有明确的人类设计。具体地说,我们通过神经网络和最佳反应模块对对手选择模块进行参数的参数进行参数调整,仅通过与游戏引擎的互动更新“谁与谁竞争”(即对手混合混合)和“如何打败他们”(即找到最佳反应)规则。令人惊讶的是,即使没有人类设计,所发现的MAR算法总算法也实现了竞争性或更好的表现,在以新人基底游戏的精度的游戏解决方案解决者(eg、PRO)上,我们在运动运动的不易变的游戏,从我们不透明运动会、不透明、不透明、不透明的游戏、不透明的游戏中,从我们不透明的游戏、不透明地展示的游戏到不透明、不透明、不透明地展示的游戏、不透明的游戏,从常规的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏中,从常规的游戏、不透明的游戏到不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏,从我们不透明的游戏,从我们不透明的游戏的游戏的游戏、不透明的游戏、不透明的游戏的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏、不透明的游戏,从我们不透明的游戏到纸。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
专知会员服务
50+阅读 · 2021年6月30日
专知会员服务
25+阅读 · 2021年4月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【简介】生成式对抗网络简介
GAN生成式对抗网络
8+阅读 · 2017年9月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【简介】生成式对抗网络简介
GAN生成式对抗网络
8+阅读 · 2017年9月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员