Implicit planning has emerged as an elegant technique for combining learned models of the world with end-to-end model-free reinforcement learning. We study the class of implicit planners inspired by value iteration, an algorithm that is guaranteed to yield perfect policies in fully-specified tabular environments. We find that prior approaches either assume that the environment is provided in such a tabular form -- which is highly restrictive -- or infer "local neighbourhoods" of states to run value iteration over -- for which we discover an algorithmic bottleneck effect. This effect is caused by explicitly running the planning algorithm based on scalar predictions in every state, which can be harmful to data efficiency if such scalars are improperly predicted. We propose eXecuted Latent Value Iteration Networks (XLVINs), which alleviate the above limitations. Our method performs all planning computations in a high-dimensional latent space, breaking the algorithmic bottleneck. It maintains alignment with value iteration by carefully leveraging neural graph-algorithmic reasoning and contrastive self-supervised learning. Across eight low-data settings -- including classical control, navigation and Atari -- XLVINs provide significant improvements to data efficiency against value iteration-based implicit planners, as well as relevant model-free baselines. Lastly, we empirically verify that XLVINs can closely align with value iteration.


翻译:隐性规划已经成为一种优雅的技术,将世界已学的模型与端到端的无模型强化学习相结合。我们研究了受价值迭代启发的隐含规划者阶级,这种算法保证在完全指定的表格环境中产生完美的政策。我们发现,先前的方法要么假定环境是以列表形式提供的,这种表格形式非常严格,要么推断为“本地街区”进行增值迭代,为此我们发现一种算法瓶颈效应。这种效果是由于在每一个州根据星标预测进行明确的规划算法造成的,如果不适当地预测,这种算法可能对数据效率有害。我们建议采用经裁剪切的点值迭代网络(XLINs),这种算法可以减轻上述限制。我们的方法是在高空潜藏空间进行所有规划计算,打破算法瓶颈。我们通过仔细利用神经图形-横向推理和对比自我监控学习,在八个低数据环境环境环境中,包括古典控制、导航和AtLSLISIN系统,以及我们作为相关基线的精确度数据,提供与无损性数据对比的升级。

0
下载
关闭预览

相关内容

【Cell】神经算法推理,Neural algorithmic reasoning
专知会员服务
29+阅读 · 2021年7月16日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2021年10月19日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
6+阅读 · 2019年11月14日
Arxiv
7+阅读 · 2019年6月20日
VIP会员
相关VIP内容
【Cell】神经算法推理,Neural algorithmic reasoning
专知会员服务
29+阅读 · 2021年7月16日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
4+阅读 · 2021年10月19日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
6+阅读 · 2019年11月14日
Arxiv
7+阅读 · 2019年6月20日
Top
微信扫码咨询专知VIP会员