Offline reinforcement learning (RL) tasks require the agent to learn from a pre-collected dataset with no further interactions with the environment. Despite the potential to surpass the behavioral policies, RL-based methods are generally impractical due to the training instability and bootstrapping the extrapolation errors, which always require careful hyperparameter tuning via online evaluation. In contrast, offline imitation learning (IL) has no such issues since it learns the policy directly without estimating the value function by bootstrapping. However, IL is usually limited in the capability of the behavioral policy and tends to learn a mediocre behavior from the dataset collected by the mixture of policies. In this paper, we aim to take advantage of IL but mitigate such a drawback. Observing that behavior cloning is able to imitate neighboring policies with less data, we propose \textit{Curriculum Offline Imitation Learning (COIL)}, which utilizes an experience picking strategy for imitating from adaptive neighboring policies with a higher return, and improves the current policy along curriculum stages. On continuous control benchmarks, we compare COIL against both imitation-based and RL-based methods, showing that it not only avoids just learning a mediocre behavior on mixed datasets but is also even competitive with state-of-the-art offline RL methods.


翻译:离线强化学习( RL) 任务要求代理人从预先收集的数据集中学习,而不再与环境发生进一步互动。 尽管有可能超越行为政策, 以RL为基础的方法一般不切实际, 因为培训不稳定, 外推错误总是需要通过在线评估进行仔细超光度调整。 相反, 离线模仿学习( IL) 没有这样的问题, 因为它直接学习政策而不估算靴子的值函数 。 但是, IL 通常在行为政策的能力上受到限制, 并且往往从政策混合收集的数据集中学习中学习平庸行为 。 在本文中, 我们的目标是利用 IL 来利用这个工具, 来利用这个工具来学习适应性邻里政策, 并且从当前课程的各个阶段中学习平庸行为 。 在持续控制基准上, 我们将 COL 与 RCIL 相比, 仅仅以 RCIL 和 RBL 的混合行为 来学习 RCL 。

0
下载
关闭预览

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
73+阅读 · 2020年4月24日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年1月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
7+阅读 · 2021年5月25日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年1月14日
Top
微信扫码咨询专知VIP会员