在过去的十年里,深度强化学习(RL)在序列决策制定领域推动了许多进展,包括在超人类围棋比赛、机器人控制和自动算法发现等方面的显著应用。然而,尽管取得了这些成功,深度RL也因为样本效率低下、通常难以泛化到原始环境之外的设置以及在训练过程中可能的不稳定性而臭名昭著。此外,传统的RL设置仍然依赖于在新环境中从零开始探索和学习,没有利用现有数据。本论文探讨了解决这些挑战的两个有前景的方向。首先,我们探索使用合成数据和环境来扩展智能体的经验。其次,我们提出了利用现有数据集的原则性技术,从而减少或替代昂贵的在线数据收集的需求。
论文的第一部分聚焦于生成合成数据和环境以训练RL智能体。虽然在基于模型的RL中利用学习到的动力学模型来提高样本效率有着丰富的历史,但这些方法通常限制于单任务设置。为了克服这一限制,我们提出了一种新颖的方法“增强世界模型”,专为离线到在线转移设计,在测试动力学可能与训练数据不同的情况下使用。我们的方法通过简单的转换增强了学习到的动力学模型,以捕获机器人物理属性的潜在变化,从而产生更稳健的策略。此外,我们在测试时将采样的增强作为上下文训练智能体,显著提高了对新动力学的零样本泛化能力。超越常用的前向动力学模型,我们提出了一种替代范式“合成经验回放”,直接利用生成模型模拟和上采样智能体训练数据的分布。利用扩散生成模型的最新进展,我们的方法超越并且可以与标准数据增强组合使用,在低数据环境中特别有效。此外,我们的方法为某些RL智能体使用比以前更大的网络进行稳定训练打开了大门。
在论文的第二部分,我们探索了一个补充的方向,即利用现有数据来提高数据效率。虽然机器学习的相邻领域,如计算机视觉和自然语言处理,已经在数据和模型规模扩展方面取得了显著进展,但传统的RL算法可能难以纳入额外的数据,因为需要遵循策略的数据。我们首先调查了一种原则性方法,用于将专家演示纳入在线RL中以加速学习,即对行为先验进行KL正则化,并发现了一种病理现象,即行为先验的不确定性未校准。我们展示了行为参考策略的标准参数化可能导致训练动态不稳定,并提出了一种解决方案,“非参数先验演员-评论家”,代表了在运动和灵巧操作任务中的新技术水平。此外,我们在离线强化学习方面取得了进步,该领域的智能体可以在完全没有在线数据收集的情况下进行训练。在这个领域,我们阐明了离线基于模型的RL算法的设计空间,并强调了以往方法在启发式方法和超参数选择上的次优选择。通过在这个空间中严格搜索,我们展示了我们可以大幅改进标准算法,并提供了哪些设计选择最重要的见解。最后,我们通过提出“深度数据驱动RL的视觉数据集”,这是该领域第一个全面且公开可用的评估套件,以及用于评估该领域未来进展的简单基于模型和无模型的基线,朝着将离线RL扩展到基于像素的环境方向迈出了一步。
总之,本论文代表了使RL算法更高效并更容易在现实世界中部署的探索。沿着这些方向的进一步进展可能会使我们更接近于更具通用能力的智能体的终极目标,这些智能体既能为自己生成适当的学习环境,又能从大量现有数据中启动学习。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。