近年来,深度强化学习算法在游戏智能 [1, 2]、机器人控制 [3, 4] 等领域取得了巨大的成功。然而,在很多真实应用的场景下,用于测试的目标环境往往与用于训练的源环境存在差异。例如,仿真环境和真实环境的物理参数往往难以精确保持一致;测试时环境中可能会出现训练时未曾出现的扰动。这种源环境与目标环境的不一致可能来自于模拟器到真实环境的迁移或不同测试环境之间的差异 [5, 6],而这种差异往往会导致在源环境训练得到的表现良好的策略在目标环境中性能出现明显的下降。

为了解决上述问题,现有的鲁棒强化学习方法通常通过将目标环境的扰动提前建模并添加至源环境中,以增强策略迁移时的鲁棒性。例如,domain randomization (DR) [7] 在训练时随机地改变环境参数以生成一系列不同环境下的训练数据,通过这种方式来近似目标环境中潜在的扰动;robust adversarial reinforcement learning (RARL) [5] 将环境扰动建模为仿真机器人特定部位的可训练的对抗力并和主智能体一起交替训练。这些算法在以往的研究中都被证明取得了良好的实验效果。

然而,提前建模目标环境的扰动并添加到源环境的思路在真实应用场景中会出现如下两个限制。首先,我们通常需要在训练过程中引入关于这些扰动的先验知识。例如,DR 算法需要提前指定训练时哪些环境参数需要变化,而这往往与目标环境可能出现的扰动相关联;RARL 算法需要人工设计特定的力添加至仿真机器人的特定位置,以建模真实环境中可能出现的扰动形式。然而,当我们需要将策略迁移到一个从未见过的目标环境时,我们往往会缺乏对于该环境的先验知识。其次,提前建模目标环境的扰动并添加到源环境通常还假设我们有一个良好的模拟器,可以用于控制各种真实环境中动力学参数的变化。然而,设计满足这样要求的模拟器可能是高成本的,且流体动力学影响、机器人部件的损耗这些环境动力学参数的建模往往较为困难。总而言之,在许多的真实场景任务中,我们可能难以提前预知扰动的具体形式,甚至不能假设扰动遵循某种特定形式。这时候我们需要设计新的鲁棒强化学习算法,以实现在较少关于扰动的先验知识的情况下学习一个更鲁棒的策略。

在本文中,我们提出了一种新的基于状态扰动的鲁棒强化学习方法 (State-Conservative Policy Optimization, SCPO) ,将难以提前建模的真实环境扰动转换为状态扰动并通过正则项近似后引入训练过程,以实现在使用较少先验知识的情况下增强策略迁移时的鲁棒性。具体地,我们注意到任何来自环境的扰动都将通过影响未来时刻状态的形式影响该智能体的决策轨迹。基于此,我们提出了一类 State-Conservative Markov Decision Process (SC-MDP)以显式地考虑来自状态空间的扰动,从而将以往的 robust Markov decision process (RMDP) 理论中来自状态转移函数空间的无限维约束优化问题变为来自状态空间的有限维约束优化问题,并通过一项基于梯度的正则项对该约束优化问题进行化简和近似。实验结果显示,SCPO 算法在多个 MuJoCo 仿真机器人控制任务上习得了面对环境扰动更为策略鲁棒的策略。

https://www.zhuanzhi.ai/paper/174d0f12b976bf876a8502b6052e0aeb

成为VIP会员查看完整内容
33

相关内容

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
18+阅读 · 2022年4月13日
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
125+阅读 · 2021年8月25日
专知会员服务
19+阅读 · 2021年5月4日
专知会员服务
25+阅读 · 2021年1月21日
专知会员服务
29+阅读 · 2020年12月14日
AAAI 2022 | 基于强化学习的视频弹幕攻击
PaperWeekly
1+阅读 · 2022年1月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
不断发展的强化学习算法
TensorFlow
2+阅读 · 2021年5月20日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
24+阅读 · 2021年6月25日
Adaptive Synthetic Characters for Military Training
Arxiv
46+阅读 · 2021年1月6日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习
专知会员服务
18+阅读 · 2022年4月13日
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
125+阅读 · 2021年8月25日
专知会员服务
19+阅读 · 2021年5月4日
专知会员服务
25+阅读 · 2021年1月21日
专知会员服务
29+阅读 · 2020年12月14日
相关资讯
AAAI 2022 | 基于强化学习的视频弹幕攻击
PaperWeekly
1+阅读 · 2022年1月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
不断发展的强化学习算法
TensorFlow
2+阅读 · 2021年5月20日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员