We consider Model-Agnostic Meta-Learning (MAML) methods for Reinforcement Learning (RL) problems, where the goal is to find a policy using data from several tasks represented by Markov Decision Processes (MDPs) that can be updated by one step of stochastic policy gradient for the realized MDP. In particular, using stochastic gradients in MAML update steps is crucial for RL problems since computation of exact gradients requires access to a large number of possible trajectories. For this formulation, we propose a variant of the MAML method, named Stochastic Gradient Meta-Reinforcement Learning (SG-MRL), and study its convergence properties. We derive the iteration and sample complexity of SG-MRL to find an $\epsilon$-first-order stationary point, which, to the best of our knowledge, provides the first convergence guarantee for model-agnostic meta-reinforcement learning algorithms. We further show how our results extend to the case where more than one step of stochastic policy gradient method is used at test time. Finally, we empirically compare SG-MRL and MAML in several deep RL environments.


翻译:我们认为,加强学习的模型-不可测元学习(MAML)方法(MAML)对于加强学习的模型-不可测的梯度(MAML)问题至关重要,在这种方法中,我们的目标是利用由Markov决定程序(MDPs)代表的若干任务提供的数据来找到一项政策,这种数据可以通过对已实现的MDP的随机政策梯度的一步加以更新更新。特别是,在MAML更新步骤中使用随机梯度对于加强学习的模型-随机梯度(MAML)问题至关重要,因为精确梯度的计算需要获得大量可能的轨迹。关于这一公式,我们提出了一个MAML方法的变式,名为Stochatical 梯度学习(SG-MRL),并研究其趋同特性。我们从SG-MRL的迭代和样本复杂性中找到一个美元一等定点,根据我们的知识,这为模型-不可知元元元的元力学习算法提供了第一个趋同保证。我们进一步展示了我们的结果如何延伸到一个案例,在深层的MAML环境中使用超过一步的随机梯度政策梯度梯度方法。最后,我们进行了实验性研究。

1
下载
关闭预览

相关内容

MAML(Model-Agnostic Meta-Learning)是元学习(Meta learning)最经典的几个算法之一,出自论文《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》。 原文地址:https://arxiv.org/abs/1703.03400
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
124+阅读 · 2021年7月14日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月19日
Arxiv
4+阅读 · 2020年3月19日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
124+阅读 · 2021年7月14日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员