尽管现代深度强化学习(RL)算法处于人工智能能力的前沿,但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍: 在没有模拟器的情况下,几乎不可能将深度RL应用到任何领域。为了解决这一关键的数据低效问题,在本文中,我们致力于设计能够快速适应新环境的元学习智能体。与标准的强化学习相比,元学习在环境分布上进行学习,从环境中抽样特定任务,并直接优化元学习者,以提高策略改进的速度。通过利用与感兴趣任务共享子结构的任务分布,元学习者可以调整自己的归纳偏差,从而在测试时快速适应。本文主要研究元学习算法的设计,该算法利用记忆作为驱动在新环境中快速适应的主要机制。情景间记忆的元学习是一种利用基于特定环境的整个互动历史的记忆架构来产生策略的元学习方法。因此,在特定任务中的学习动态驱动策略改进被包含在序列模型的计算过程中,本质上把学习算法的设计交给了体系结构。虽然概念上简单明了,但使用情景间记忆的元学习非常有效,仍然是一种最先进的方法。我们提出并讨论了一些通过记忆进行元学习的技巧。论文的第一部分集中在“具身”环境类,其中智能体人在一个类似于自然世界的环境中有一个物理表现。我们利用这种高度结构化的环境集,致力于设计具有快速记忆、规划和状态推断能力的单片嵌入式代理体系结构。在论文的第二部分,我们将重点放在那些没有强公共子结构的一般环境中应用的方法。首先,我们重新研究了元学习主体与环境的交互模式:提出用并发执行框架取代传统的顺序处理交互历史,其中多个主体在环境中并行操作。接下来,我们将讨论一种通用且功能强大的跨情景记忆序列模型——门控transformer的使用,它在性能和数据效率方面有了很大的改进。最后,我们开发一种方法,显著降低训练成本和代理延迟transformer 模型(元)强化学习设置,目的是对(1)在研究社区,使其使用更加广泛,(2)解锁使用实时和latency-constrained应用,如机器人。

https://www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

成为VIP会员查看完整内容
53

相关内容

专知会员服务
22+阅读 · 2021年9月25日
专知会员服务
15+阅读 · 2021年6月4日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
123+阅读 · 2020年8月27日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
Arxiv
0+阅读 · 2021年12月3日
Arxiv
4+阅读 · 2021年10月19日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
5+阅读 · 2018年10月23日
VIP会员
相关主题
相关论文
Arxiv
0+阅读 · 2021年12月3日
Arxiv
4+阅读 · 2021年10月19日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
5+阅读 · 2018年10月23日
微信扫码咨询专知VIP会员