A major challenge in the Deep RL (DRL) community is to train agents able to generalize their control policy over situations never seen in training. Training on diverse tasks has been identified as a key ingredient for good generalization, which pushed researchers towards using rich procedural task generation systems controlled through complex continuous parameter spaces. In such complex task spaces, it is essential to rely on some form of Automatic Curriculum Learning (ACL) to adapt the task sampling distribution to a given learning agent, instead of randomly sampling tasks, as many could end up being either trivial or unfeasible. Since it is hard to get prior knowledge on such task spaces, many ACL algorithms explore the task space to detect progress niches over time, a costly tabula-rasa process that needs to be performed for each new learning agents, although they might have similarities in their capabilities profiles. To address this limitation, we introduce the concept of Meta-ACL, and formalize it in the context of black-box RL learners, i.e. algorithms seeking to generalize curriculum generation to an (unknown) distribution of learners. In this work, we present AGAIN, a first instantiation of Meta-ACL, and showcase its benefits for curriculum generation over classical ACL in multiple simulated environments including procedurally generated parkour environments with learners of varying morphologies. Videos and code are available at https://sites.google.com/view/meta-acl .


翻译:深RL(DRL)社区的一项重大挑战是培训能够对从未在培训中看到的情况推广其控制政策的代理人员,培训各种任务的培训被确定为良好概括的一个关键要素,这促使研究人员使用复杂的连续参数空间所控制的丰富的程序任务生成系统。在这种复杂的任务空间中,必须依靠某种形式的自动课程学习(ACL)来调整任务抽样分配,使其适应特定的学习代理,而不是随机抽样任务,因为许多人最终可能会成为微不足道或不可行的抽样任务,因为许多人可能最终成为微不足道或不可行的抽样任务。由于很难事先获得关于此类任务空间的知识,许多ACL算法探索了任务空间,以探测一段时间内的进展专长,这是一个昂贵的 tabula-rasa进程,需要为每个新的学习代理者实施,尽管他们的能力特征可能相似。为了应对这一限制,我们引入Meta-ACL的概念,并在黑箱RLL学习者的背景下正式确定任务分布,即试图将课程生成的算法普遍化为(不为人所知的)学员的分布。在这项工作中,我们向AGRIAINA、首次展示其模拟/CLAC的模型环境,包括模拟的多式的模拟/CLADLA。

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
24+阅读 · 2021年1月25日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
VIP会员
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
9+阅读 · 2021年3月25日
Arxiv
24+阅读 · 2021年1月25日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Top
微信扫码咨询专知VIP会员