Offline learning is a key part of making reinforcement learning (RL) useable in real systems. Offline RL looks at scenarios where there is data from a system's operation, but no direct access to the system when learning a policy. Recent work on training RL policies from offline data has shown results both with model-free policies learned directly from the data, or with planning on top of learnt models of the data. Model-free policies tend to be more performant, but are more opaque, harder to command externally, and less easy to integrate into larger systems. We propose an offline learner that generates a model that can be used to control the system directly through planning. This allows us to have easily controllable policies directly from data, without ever interacting with the system. We show the performance of our algorithm, Model-Based Offline Planning (MBOP) on a series of robotics-inspired tasks, and demonstrate its ability leverage planning to respect environmental constraints. We are able to find near-optimal polices for certain simulated systems from as little as 50 seconds of real-time system interaction, and create zero-shot goal-conditioned policies on a series of environments. An accompanying video can be found here: https://youtu.be/nxGGHdZOFts


翻译:离线学习是使强化学习(RL)在实际系统中可以使用的关键部分。 离线学习( RL) 是在实际系统中可以使用强化学习( RL) 的关键部分。 离线学习( RL) 查看了系统运行中存在数据但当学习政策时无法直接访问系统的情况。 最近从离线数据培训RL政策的工作显示的结果既有直接从数据中学习的无模式政策,也有在数据模型模型上进行规划的结果。 无模式政策往往更具有性能,但更不透明,更难以在外部进行指挥,更难融入更大的系统。 我们提议了一个离线学习者, 生成一个模型, 可以直接通过规划来控制系统。 这使我们能够在不与系统互动的情况下,直接从数据中获取易于控制的政策。 我们展示了我们的算法“ 以模型为基础的离线规划(MBOP) ” 在一系列机器人启发性任务上的表现, 并展示其对环境制约的杠杆规划能力。 我们能够为某些模拟系统找到近最佳的警察, 仅50 秒的实时系统互动, 并在此创建零发目标限制政策 。 在一系列的图像环境中可以找到 。

0
下载
关闭预览

相关内容

【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
VIP会员
相关VIP内容
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员