In recent years we have seen fast progress on a number of benchmark problems in AI, with modern methods achieving near or super human performance in Go, Poker and Dota. One common aspect of all of these challenges is that they are by design adversarial or, technically speaking, zero-sum. In contrast to these settings, success in the real world commonly requires humans to collaborate and communicate with others, in settings that are, at least partially, cooperative. In the last year, the card game Hanabi has been established as a new benchmark environment for AI to fill this gap. In particular, Hanabi is interesting to humans since it is entirely focused on theory of mind, i.e., the ability to effectively reason over the intentions, beliefs and point of view of other agents when observing their actions. Learning to be informative when observed by others is an interesting challenge for Reinforcement Learning (RL): Fundamentally, RL requires agents to explore in order to discover good policies. However, when done naively, this randomness will inherently make their actions less informative to others during training. We present a new deep multi-agent RL method, the Simplified Action Decoder (SAD), which resolves this contradiction exploiting the centralized training phase. During training SAD allows other agents to not only observe the (exploratory) action chosen, but agents instead also observe the greedy action of their team mates. By combining this simple intuition with best practices for multi-agent learning, SAD establishes a new SOTA for learning methods for 2-5 players on the self-play part of the Hanabi challenge. Our ablations show the contributions of SAD compared with the best practice components. All of our code and trained agents are available at https://github.com/facebookresearch/Hanabi_SAD.


翻译:近年来,我们看到在AI的一些基准问题上取得了快速进展,现代方法在Go、Poker和Dota实现了接近或超人的业绩。所有挑战的一个常见方面是,它们的设计是对抗性的,或者从技术上讲是零和。与这些背景相反,现实世界的成功通常要求人类在至少部分合作的环境中与他人合作与交流。去年,汉娜比牌游戏被确定为AI填补这一差距的新基准环境。特别是,汉娜比对人类很有意思,因为它完全侧重于思想理论,即自身在观察行动时能够有效地解释其他代理人的意图、信仰和观点。与其他人员观察时学习信息是一个有趣的挑战:基本上,汉娜比牌游戏需要代理人探索以发现良好的政策。然而,如果做得天真,这种随机性将让其他人在培训期间的行为变得少一些信息。我们展示了一个新的深层次的RL方法,即自我定位的自我理论,即其他人员在观察行动的意图、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、信仰、学习学习学习、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、学习、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、运动、

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
97+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
157+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年6月29日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关VIP内容
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员