近年来,深度强化学习算法在游戏智能 [1, 2]、机器人控制 [3, 4] 等领域取得了巨大的成功。然而,在很多真实应用的场景下,用于测试的目标环境往往与用于训练的源环境存在差异。例如,仿真环境和真实环境的物理参数往往难以精确保持一致;测试时环境中可能会出现训练时未曾出现的扰动。这种源环境与目标环境的不一致可能来自于模拟器到真实环境的迁移或不同测试环境之间的差异 [5, 6],而这种差异往往会导致在源环境训练得到的表现良好的策略在目标环境中性能出现明显的下降。
为了解决上述问题,现有的鲁棒强化学习方法通常通过将目标环境的扰动提前建模并添加至源环境中,以增强策略迁移时的鲁棒性。例如,domain randomization (DR) [7] 在训练时随机地改变环境参数以生成一系列不同环境下的训练数据,通过这种方式来近似目标环境中潜在的扰动;robust adversarial reinforcement learning (RARL) [5] 将环境扰动建模为仿真机器人特定部位的可训练的对抗力并和主智能体一起交替训练。这些算法在以往的研究中都被证明取得了良好的实验效果。
然而,提前建模目标环境的扰动并添加到源环境的思路在真实应用场景中会出现如下两个限制。首先,我们通常需要在训练过程中引入关于这些扰动的先验知识。例如,DR 算法需要提前指定训练时哪些环境参数需要变化,而这往往与目标环境可能出现的扰动相关联;RARL 算法需要人工设计特定的力添加至仿真机器人的特定位置,以建模真实环境中可能出现的扰动形式。然而,当我们需要将策略迁移到一个从未见过的目标环境时,我们往往会缺乏对于该环境的先验知识。其次,提前建模目标环境的扰动并添加到源环境通常还假设我们有一个良好的模拟器,可以用于控制各种真实环境中动力学参数的变化。然而,设计满足这样要求的模拟器可能是高成本的,且流体动力学影响、机器人部件的损耗这些环境动力学参数的建模往往较为困难。总而言之,在许多的真实场景任务中,我们可能难以提前预知扰动的具体形式,甚至不能假设扰动遵循某种特定形式。这时候我们需要设计新的鲁棒强化学习算法,以实现在较少关于扰动的先验知识的情况下学习一个更鲁棒的策略。
在本文中,我们提出了一种新的基于状态扰动的鲁棒强化学习方法 (State-Conservative Policy Optimization, SCPO) ,将难以提前建模的真实环境扰动转换为状态扰动并通过正则项近似后引入训练过程,以实现在使用较少先验知识的情况下增强策略迁移时的鲁棒性。具体地,我们注意到任何来自环境的扰动都将通过影响未来时刻状态的形式影响该智能体的决策轨迹。基于此,我们提出了一类 State-Conservative Markov Decision Process (SC-MDP)以显式地考虑来自状态空间的扰动,从而将以往的 robust Markov decision process (RMDP) 理论中来自状态转移函数空间的无限维约束优化问题变为来自状态空间的有限维约束优化问题,并通过一项基于梯度的正则项对该约束优化问题进行化简和近似。实验结果显示,SCPO 算法在多个 MuJoCo 仿真机器人控制任务上习得了面对环境扰动更为策略鲁棒的策略。
https://www.zhuanzhi.ai/paper/174d0f12b976bf876a8502b6052e0aeb