现代深度强化学习(RL)算法,尽管处于人工智能能力的最前沿,但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍:在没有模拟器的情况下,深度RL几乎不可能应用于任何领域。为了解决这种关键数据效率低下的问题,在本论文中,我们致力于设计能够快速适应新环境的元学习智能体。与标准的强化学习相比,元学习在特定的环境分布上进行学习,从这些环境中采样特定的任务,并直接优化元学习器,以提高策略改进的速度。通过利用与感兴趣任务具有共同子结构的任务分布,元学习器可以调整自己的归纳偏见,使其能够在测试时快速适应。
本论文的重点是设计元学习算法,利用记忆作为驱动快速适应新环境的主要机制。具有情景间记忆的元学习是一类元学习方法,利用基于特定环境的整个交互历史的记忆架构来产生策略。因此,在特定任务中驱动策略改进的学习动态被包含在序列模型的计算过程中,本质上把学习算法的设计交给了体系结构。虽然概念简单,但使用情景间记忆的元学习非常有效,仍然是最先进的方法。我们提出并讨论了几种通过记忆进行元学习的技术。
论文的第一部分集中在“具身”类环境,其中一个主体在一个类似自然世界的环境中有物理表现。我们利用这种高度结构化的环境集来设计具有快速记忆、规划和状态推断能力的整体嵌入式代理体系结构。在论文的第二部分,我们将重点放在没有强公共子结构的一般环境中应用的方法。首先,我们重新检查元学习代理与环境的交互模式:提出用一个并行执行框架来取代典型的顺序处理交互历史,其中多个智能体并行地在环境中行动。接下来,我们讨论了一个通用的和强大的序列模型的使用片段间存储器,门控transformer,展示了性能和数据效率的巨大改进。最后,我们开发了一种方法,可以显著降低(元)强化学习设置中transformer模型的训练成本和作用延迟,目的是(1)使它们在研究社区中更广泛地使用,(2)解锁它们在实时和延迟受限的应用中使用,如机器人。
https://www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf