Meta-reinforcement learning algorithms can enable robots to acquire new skills much more quickly, by leveraging prior experience to learn how to learn. However, much of the current research on meta-reinforcement learning focuses on task distributions that are very narrow. For example, a commonly used meta-reinforcement learning benchmark uses different running velocities for a simulated robot as different tasks. When policies are meta-trained on such narrow task distributions, they cannot possibly generalize to more quickly acquire entirely new tasks. Therefore, if the aim of these methods is to enable faster acquisition of entirely new behaviors, we must evaluate them on task distributions that are sufficiently broad to enable generalization to new behaviors. In this paper, we propose an open-source simulated benchmark for meta-reinforcement learning and multi-task learning consisting of 50 distinct robotic manipulation tasks. Our aim is to make it possible to develop algorithms that generalize to accelerate the acquisition of entirely new, held-out tasks. We evaluate 6 state-of-the-art meta-reinforcement learning and multi-task learning algorithms on these tasks. Surprisingly, while each task and its variations (e.g., with different object positions) can be learned with reasonable success, these algorithms struggle to learn with multiple tasks at the same time, even with as few as ten distinct training tasks. Our analysis and open-source environments pave the way for future research in multi-task learning and meta-learning that can enable meaningful generalization, thereby unlocking the full potential of these methods.


翻译:元加强学习算法可以让机器人更快地获得新的技能,办法是利用先前的经验学习如何学习。然而,目前关于元加强学习的研究大多侧重于非常狭窄的任务分布。例如,通常使用的元加强学习基准将模拟机器人的不同运行速度作为不同的任务。当政策在这种狭窄的任务分布上经过元化训练时,它们可能无法推广到更迅速地获得全新的任务。因此,如果这些方法的目的是为了更快地获得全新的行为,我们必须评估它们具有足够广泛意义的任务分布,以便能够对新的行为进行概括化。在本文中,我们提出一个用于元加强学习和多任务学习的公开源模拟基准,包括50项不同的机械操纵任务。我们的目标是能够开发总算算算法,以加速获得全新、已搁置的任务。我们评价6个最先进的元加强学习和多任务分布,我们必须评估它们是否足够广泛的任务分布,以便能够对新的行为进行概括化的分布进行广泛,从而能够对新的行为进行概括化的分布进行概括化分析。我们提出一个公开的源构建模拟基准,这些任务在学习过程中可以学习各种不同的任务进行不同的学习,同时进行不同的学习。

30
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
82+阅读 · 2020年5月31日
元学习(meta learning) 最新进展综述论文
专知会员服务
238+阅读 · 2020年5月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
135+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
69+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
34+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
105+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
99+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
14+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
11+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
22+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
18+阅读 · 2017年8月2日
Arxiv
7+阅读 · 2019年4月19日
Arxiv
12+阅读 · 2019年1月26日
Arxiv
6+阅读 · 2018年12月26日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
3+阅读 · 2018年9月12日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
82+阅读 · 2020年5月31日
元学习(meta learning) 最新进展综述论文
专知会员服务
238+阅读 · 2020年5月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
135+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
69+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
34+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
105+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
99+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
14+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
11+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
22+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
18+阅读 · 2017年8月2日
相关论文
Top
微信扫码咨询专知VIP会员