元强化学习(Meta - reinforcement learning, Meta - rl)从以前的任务中提取知识,实现对新任务的快速适应。尽管最近取得了一些进展,但对元强化学习的有效探索仍然是稀疏奖励任务中的一个关键挑战,因为它需要在元训练和适应中快速找到与任务相关的信息性经验。针对这一挑战,我们明确建模了一个元强化学习的探索策略学习问题,该问题与开发策略学习分离,并引入了一个新的赋权驱动的探索目标,该目标旨在最大限度地获取信息以进行任务识别。我们得到了相应的内在奖励,并开发了一个新的非策略元强化学习框架,通过共享任务推理知识,有效地学习独立的上下文感知的探索和开发策略。实验结果表明,在不同的稀疏奖励MuJoCo运动任务和更复杂的稀疏奖励元世界任务中,我们的meta-RL方法显著优于最先进的基线。

https://www.zhuanzhi.ai/paper/8972d5b6f921acf471ca8b89afc45759

成为VIP会员查看完整内容
27

相关内容

Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境!
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
23+阅读 · 2021年6月8日
专知会员服务
36+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
19+阅读 · 2020年12月11日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
19+阅读 · 2018年12月8日
Arxiv
0+阅读 · 2021年7月9日
Arxiv
6+阅读 · 2021年6月24日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
23+阅读 · 2021年6月8日
专知会员服务
36+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
19+阅读 · 2020年12月11日
微信扫码咨询专知VIP会员