元强化学习算法提供了一种数据驱动的方法来获得快速适应许多具有不同奖励或动态功能的任务的策略。然而,学习到的元策略通常只在它们被训练的确切任务分布上有效,并在测试时间奖励的分布变化或过渡动态的存在下很困难。本文为元强化学习算法开发了一个框架,能够在任务空间的测试时分布变化下表现适当。我们的框架以一种适应分布鲁棒性的方法为中心,它训练一组元策略对不同级别的分布转移具有鲁棒性。当在可能发生变化的任务测试时分布上进行评估时,这使我们能够选择具有最适当鲁棒性水平的元策略,并使用它来执行快速自适应。我们正式地展示了我们的框架如何允许改进分布位移下的遗憾,并实证地展示了它在广泛分布位移下的模拟机器人问题上的有效性。

成为VIP会员查看完整内容
20

相关内容

【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
70+阅读 · 2022年10月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
43+阅读 · 2022年6月23日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
26+阅读 · 2021年5月24日
【NeurIPS2022】时序解纠缠表示学习
专知
1+阅读 · 2022年10月30日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知
2+阅读 · 2022年9月22日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【NeurIPS2021】视觉语言导航的课程学习
专知
1+阅读 · 2021年11月26日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月10日
Arxiv
1+阅读 · 2022年11月9日
Arxiv
0+阅读 · 2022年11月9日
Arxiv
27+阅读 · 2022年3月28日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
13+阅读 · 2019年1月26日
VIP会员
相关VIP内容
【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
70+阅读 · 2022年10月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
43+阅读 · 2022年6月23日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
26+阅读 · 2021年5月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月10日
Arxiv
1+阅读 · 2022年11月9日
Arxiv
0+阅读 · 2022年11月9日
Arxiv
27+阅读 · 2022年3月28日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
13+阅读 · 2019年1月26日
微信扫码咨询专知VIP会员