Deeply-learned planning methods are often based on learning representations that are optimized for unrelated tasks. For example, they might be trained on reconstructing the environment. These representations are then combined with predictor functions for simulating rollouts to navigate the environment. We find this principle of learning representations unsatisfying and propose to learn them such that they are directly optimized for the task at hand: to be maximally predictable for the predictor function. This results in representations that are by design optimal for the downstream task of planning, where the learned predictor function is used as a forward model. To this end, we propose a new way of jointly learning this representation along with the prediction function, a system we dub Latent Representation Prediction Network (LARP). The prediction function is used as a forward model for search on a graph in a viewpoint-matching task and the representation learned to maximize predictability is found to outperform a pre-trained representation. Our approach is shown to be more sample-efficient than standard reinforcement learning methods and our learned representation transfers successfully to dissimilar objects.


翻译:深层学习的规划方法往往基于学习的表述方式,这些表述方式对于不相干的任务来说是最佳的。例如,它们可能会在重建环境方面接受培训。然后,这些表述方式与模拟推出环境的预测功能相结合。我们发现这种学习表达方式的原则不令人满意,并提议学习它们,以便直接优化手头的任务:对预测员的功能来说,这是最大的可预测性。这种表述方式对下游的规划任务来说是最佳的,在这方面,所学的预测器功能被用作前瞻模式。为此,我们提出了一种与预测功能一起共同学习这种表达方式的新方法,即我们用“Ung LERP” 预测网络(LARP)系统(LARP)。预测功能被作为一种前瞻模型,用于在视觉匹配任务中搜索图表,而所学到的最大限度的可预测性代表方式比经过培训前的表述方式要优于标准强化学习方法,而且我们所学过的代表方式成功地转移到不同对象。

0
下载
关闭预览

相关内容

【IJCAI】大规模可扩展深度学习,82页ppt
专知会员服务
27+阅读 · 2021年1月10日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【KDD2020】图神经网络:基础与应用,322页ppt
专知会员服务
134+阅读 · 2020年8月30日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
专知会员服务
53+阅读 · 2019年12月22日
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
7+阅读 · 2019年3月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
相关资讯
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
7+阅读 · 2019年3月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员