The standard problem setting in Dec-POMDPs is self-play, where the goal is to find a set of policies that play optimally together. Policies learned through self-play may adopt arbitrary conventions and implicitly rely on multi-step reasoning based on fragile assumptions about other agents' actions and thus fail when paired with humans or independently trained agents at test time. To address this, we present off-belief learning (OBL). At each timestep OBL agents follow a policy $\pi_1$ that is optimized assuming past actions were taken by a given, fixed policy ($\pi_0$), but assuming that future actions will be taken by $\pi_1$. When $\pi_0$ is uniform random, OBL converges to an optimal policy that does not rely on inferences based on other agents' behavior (an optimal grounded policy). OBL can be iterated in a hierarchy, where the optimal policy from one level becomes the input to the next, thereby introducing multi-level cognitive reasoning in a controlled manner. Unlike existing approaches, which may converge to any equilibrium policy, OBL converges to a unique policy, making it suitable for zero-shot coordination (ZSC). OBL can be scaled to high-dimensional settings with a fictitious transition mechanism and shows strong performance in both a toy-setting and the benchmark human-AI & ZSC problem Hanabi.


翻译:Dec-POMDPs的标准问题设置是自我游戏,目标是找到一套最佳共同作用的政策。通过自我游戏学习的政策可能通过任意的公约,并隐含地依赖基于其他代理人行动的脆弱假设的多步推理,从而在测试时与人或独立培训代理人对齐时失败。要解决这个问题,我们提出脱离信仰的学习(OBL) 。在每次时间步骤上,OBL代理机构都遵循一个政策$\pi_1美元,假设过去的行动是由一个特定固定的政策($\pi_0美元)采取的,但假设未来行动将由$\pi_1美元采取。当$\pi_0美元是统一的随机假设时,OBL会汇集到一个不依赖其他代理人行为的推断的最佳政策(一个最佳的基于政策 ) 。 OBL 可以在一个层次上插入下一个层次的最佳政策, 从而以控制的方式引入多层次的认知推理。 与现有的方法不同, 可能与任何平衡政策趋同, Opi_1$1$1$1$0, 当OBL的高度的过渡机制都与一个独特的标准, AS-AS-SS-ass-assimal-assimal-assimimimlical-assing a cloging a dal laud lax irgal lax lax irgal-toal-s

0
下载
关闭预览

相关内容

首篇「课程学习(Curriculum Learning)」2021综述论文
专知会员服务
50+阅读 · 2021年1月31日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
89+阅读 · 2020年12月2日
元学习(meta learning) 最新进展综述论文
专知会员服务
279+阅读 · 2020年5月8日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Nested Policy Reinforcement Learning
Arxiv
0+阅读 · 2021年10月6日
Arxiv
0+阅读 · 2021年10月4日
Arxiv
0+阅读 · 2021年10月1日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
7+阅读 · 2018年12月26日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
首篇「课程学习(Curriculum Learning)」2021综述论文
专知会员服务
50+阅读 · 2021年1月31日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
89+阅读 · 2020年12月2日
元学习(meta learning) 最新进展综述论文
专知会员服务
279+阅读 · 2020年5月8日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Nested Policy Reinforcement Learning
Arxiv
0+阅读 · 2021年10月6日
Arxiv
0+阅读 · 2021年10月4日
Arxiv
0+阅读 · 2021年10月1日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
7+阅读 · 2018年12月26日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
Top
微信扫码咨询专知VIP会员