【CMU博士论文】通过记忆的元强化学习，118页pdf

现代深度强化学习(RL)算法，尽管处于人工智能能力的最前沿，但通常需要大量的训练样本才能达到与人类相当的性能水平。这种严重的数据效率低下是深度RL实际应用的主要障碍:在没有模拟器的情况下，深度RL几乎不可能应用于任何领域。为了解决这种关键数据效率低下的问题，在本论文中，我们致力于设计能够快速适应新环境的元学习智能体。与标准的强化学习相比，元学习在特定的环境分布上进行学习，从这些环境中采样特定的任务，并直接优化元学习器，以提高策略改进的速度。通过利用与感兴趣任务具有共同子结构的任务分布，元学习器可以调整自己的归纳偏见，使其能够在测试时快速适应。

本论文的重点是设计元学习算法，利用记忆作为驱动快速适应新环境的主要机制。具有情景间记忆的元学习是一类元学习方法，利用基于特定环境的整个交互历史的记忆架构来产生策略。因此，在特定任务中驱动策略改进的学习动态被包含在序列模型的计算过程中，本质上把学习算法的设计交给了体系结构。虽然概念简单，但使用情景间记忆的元学习非常有效，仍然是最先进的方法。我们提出并讨论了几种通过记忆进行元学习的技术。

论文的第一部分集中在“具身”类环境，其中一个主体在一个类似自然世界的环境中有物理表现。我们利用这种高度结构化的环境集来设计具有快速记忆、规划和状态推断能力的整体嵌入式代理体系结构。在论文的第二部分，我们将重点放在没有强公共子结构的一般环境中应用的方法。首先，我们重新检查元学习代理与环境的交互模式:提出用一个并行执行框架来取代典型的顺序处理交互历史，其中多个智能体并行地在环境中行动。接下来，我们讨论了一个通用的和强大的序列模型的使用片段间存储器，门控transformer，展示了性能和数据效率的巨大改进。最后，我们开发了一种方法，可以显著降低(元)强化学习设置中transformer模型的训练成本和作用延迟，目的是(1)使它们在研究社区中更广泛地使用，(2)解锁它们在实时和延迟受限的应用中使用，如机器人。

https://www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

130+阅读 · 2022年1月16日