We introduce the forward-backward (FB) representation of the dynamics of a reward-free Markov decision process. It provides explicit near-optimal policies for any reward specified a posteriori. During an unsupervised phase, we use reward-free interactions with the environment to learn two representations via off-the-shelf deep learning methods and temporal difference (TD) learning. In the test phase, a reward representation is estimated either from observations or an explicit reward description (e.g., a target state). The optimal policy for that reward is directly obtained from these representations, with no planning. We assume access to an exploration scheme or replay buffer for the first phase. The corresponding unsupervised loss is well-principled: if training is perfect, the policies obtained are provably optimal for any reward function. With imperfect training, the sub-optimality is proportional to the unsupervised approximation error. The FB representation learns long-range relationships between states and actions, via a predictive occupancy map, without having to synthesize states as in model-based approaches. This is a step towards learning controllable agents in arbitrary black-box stochastic environments. This approach compares well to goal-oriented RL algorithms on discrete and continuous mazes, pixel-based MsPacman, and the FetchReach virtual robot arm. We also illustrate how the agent can immediately adapt to new tasks beyond goal-oriented RL.


翻译:我们引入了无报酬的Markov 决策过程的向后代表( FB) 。 它为任何附带的奖赏提供了明确的近乎最佳的政策 。 在不受监督的阶段, 我们使用无报酬的与环境互动, 通过现成的深层学习方法和时间差异学习两种表现。 在测试阶段, 奖励代表是通过观察或明确的奖赏描述来估计的( 例如目标状态 ) 。 该奖赏的最佳政策直接从这些表现中获得, 没有规划 。 我们假设可以进入一个勘探计划或重新播放第一阶段的缓冲。 相应的不受监督的损失是很好的原则 : 如果培训是完美的, 所获得的政策对于任何奖励功能都是最合适的。 如果培训不完善, 亚优性代表是通过观察或明确的奖赏描述来估计国家和行动之间的长期关系( 例如目标状态 ) 。 FB代表可以通过预测占用地图来学习国家和行动之间的长期关系, 而不必像基于模型的方法那样将国家综合在一起 。 这是向在任意的、 直观的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向上的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 和方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 和方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向的、 方向

0
下载
关闭预览

相关内容

【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
4+阅读 · 2021年10月19日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Learning to Importance Sample in Primary Sample Space
Arxiv
7+阅读 · 2018年5月23日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
4+阅读 · 2021年10月19日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Learning to Importance Sample in Primary Sample Space
Arxiv
7+阅读 · 2018年5月23日
Top
微信扫码咨询专知VIP会员