"强化学习(RL)是一个强大的决策制定和通过交互适应性学习的框架。尽管其核心是试错学习,但它已成为人工智能(AI)研究的关键工具。在过去的十年中,RL算法已能够掌握国际象棋和围棋等战略游戏,并控制各种机器人和工业平台,从运动和操纵到电厂,甚至核聚变反应堆。通过将深度神经网络(NN)作为函数逼近器纳入其中,“深度RL”达到了处理高维状态和动作空间的能力,并且原则上在任务间有更好的泛化性,使RL解决方案变得多样化且有前景。然而,使用深度神经网络带来了某些警告。RL算法经常面临由于过拟合和对超参数敏感导致的脆弱性问题,这些问题加剧了典型的RL挑战,如低样本效率、处理稀疏奖励的困难、长期任务的延迟信用分配、对奖励函数设计的敏感性。在这篇论文中,我们提出了一系列针对RL所面临的一些问题的新颖贡献,其最终目标是提高其在连续控制任务中的效率、稳健性和泛化性。具体来说,我们将介绍更稳健的轨迹优化方法,结合NN函数逼近用于策略学习、模型学习和奖励学习。特别是,这项工作的大部分集中在零阶优化用于模型预测控制,我们证明这比基于梯度的轨迹优化器更高效、稳健和可重现。在整篇论文中,我们将展示如何使用零阶优化来有效解决稀疏奖励任务,如何在模仿学习的背景下使用它,以及如何结合模型学习用于不确定性传播。最后,我们将介绍一种从零开始学习奖励函数的方法,以纯自监督的方式。通过在模拟环境中的广泛实验,我们的方法在学习效率和性能上展示了显著的提升,减少了与环境交互所需的次数,同时仍然实现了接近最优的解决方案。这项工作旨在提供一种解决深度RL挑战部分问题的可行方法,不依赖于预定义的专家知识,解决学习过程的效率和稳健性问题。”
“虽然我们对于究竟是什么引发了人类的思维和批判性推理尚且遥远不明,但有证据表明人类行为是通过强化学习引导的。强化学习(RL)的历史可以追溯到20世纪,当时B.F. Skinner和I. Pavlov对动物进行了一系列关于条件反射的实验 [1, 2],以理解学习背后的机制。心理学家E. Thorndike已经将动物的反应由其后果所强化的观点,正式表述为“效果定律” [3]: 在特定情境中产生满意效果的反应变得更有可能再次发生,在该情境中产生不适效果的反应变得不太可能再次发生。 —— Edward Thorndike Thorndike的效果定律假设动物不是通过推理,而是通过与物理环境的试错互动来学习,直到获得成功的结果。这种决策策略以回顾性方式将奖励与行动联系起来,与前瞻性观点相对立,后者认为动物形成环境的场域图作为学习的指导机制,也称为“认知地图” [4, 5]。”
“关于人脑的大量实验证据表明,行为选择存在多种机制 [6],决策过程既是反思性的(前瞻性)也是反射性的(回顾性),正如我们所预期的那样。强化学习理论也以类似的方式发展,现在包括两个主要分支:无模型(反射性)和基于模型(反思性)RL [7]。无模型RL学习在状态和行动之间的反应性映射,以增加代理的奖励,而无需了解环境的基本物理原理。相反,基于模型的RL则学习对世界的内部表征,用于学习每个行动的后果。与基于模型的RL类似,另一种计算性的前瞻性推理方法可以在模型预测控制(MPC)中找到,它在机器人学和许多工业过程中有效使用 [8, 9]。在MPC中,使用已知模型来迭代地优化给定的奖励,同时考虑规划范围内的约束和来自环境的反馈。鉴于其提前规划的组成部分,MPC也可以被看作是一种反思性决策制定的形式。 在这篇论文的过程中,我们将看到如何将基于模型和无模型的RL与MPC风格的迭代规划相结合,以创建比单独组件更强大的控制策略。例如,无模型RL算法能够从大量数据中快速学习,但对训练超参数敏感,泛化能力不佳,并且缺乏规划组件,这可能导致在复杂环境中做出次优决策。另一方面,基于模型的RL方法有可能更灵活,但经常受到与模型估计相关的偏差的困扰,当以自回归方式使用时,这些偏差可能迅速累积。将基于模型的RL与MPC整合起来可以提供两全其美的解决方案,因为MPC提供了一个规划框架,可以纳入学习到的世界模型,并在规划范围内优化代理的行动。这可以导致更高效的决策制定策略,能够从经验中学习,适应不断变化的环境,并随着时间的推移优化它们的行为,同时具有反应性以及规避风险的特性。”