The standard problem setting in Dec-POMDPs is self-play, where the goal is to find a set of policies that play optimally together. Policies learned through self-play may adopt arbitrary conventions and implicitly rely on multi-step reasoning based on fragile assumptions about other agents' actions and thus fail when paired with humans or independently trained agents at test time. To address this, we present off-belief learning (OBL). At each timestep OBL agents follow a policy $\pi_1$ that is optimized assuming past actions were taken by a given, fixed policy ($\pi_0$), but assuming that future actions will be taken by $\pi_1$. When $\pi_0$ is uniform random, OBL converges to an optimal policy that does not rely on inferences based on other agents' behavior (an optimal grounded policy). OBL can be iterated in a hierarchy, where the optimal policy from one level becomes the input to the next, thereby introducing multi-level cognitive reasoning in a controlled manner. Unlike existing approaches, which may converge to any equilibrium policy, OBL converges to a unique policy, making it suitable for zero-shot coordination (ZSC). OBL can be scaled to high-dimensional settings with a fictitious transition mechanism and shows strong performance in both a toy-setting and the benchmark human-AI & ZSC problem Hanabi.


翻译:Dec-POMDPs的标准问题设置是自我游戏,目标是找到一套最佳共同作用的政策。通过自我游戏学习的政策可能通过任意的公约,并隐含地依赖基于其他代理人行动的脆弱假设的多步推理,从而在测试时与人或独立培训代理人对齐时失败。要解决这个问题,我们提出脱离信仰的学习(OBL) 。在每次时间步骤上,OBL代理机构都遵循一个政策$\pi_1美元,假设过去的行动是由一个特定固定的政策($\pi_0美元)采取的,但假设未来行动将由$\pi_1美元采取。当$\pi_0美元是统一的随机假设时,OBL会汇集到一个不依赖其他代理人行为的推断的最佳政策(一个最佳的基于政策 ) 。 OBL 可以在一个层次上插入下一个层次的最佳政策, 从而以控制的方式引入多层次的认知推理。 与现有的方法不同, 可能与任何平衡政策趋同, Opi_1$1$1$1$0, 当OBL的高度的过渡机制都与一个独特的标准, AS-AS-SS-ass-assimal-assimal-assimimimlical-assing a cloging a dal laud lax irgal lax lax irgal-toal-s

0
下载
关闭预览

相关内容

【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月14日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
6+阅读 · 2018年12月10日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关VIP内容
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
多任务学习(Multi-task Learning)方法总结
极市平台
6+阅读 · 2020年4月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年8月14日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
6+阅读 · 2018年12月10日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Top
微信扫码咨询专知VIP会员