安全强化学习(RL)专注于训练策略以最大化奖励,同时确保安全性。这是将 RL 应用于关乎安全的实际应用的重要步骤。然而,由于需要在最大化奖励和满足安全约束之间取得平衡,安全 RL 存在挑战,这可能导致训练不稳定和过于保守的行为。在这篇论文中,我们提出了两种解决上述安全 RL 问题的方法: (1)我们提出了自我节奏的安全强化学习,它将自我节奏的课程与基础的安全 RL 算法 PPO-Lagrangian 结合在一起。在训练过程中,策略从简单的安全约束开始,逐渐增加约束的难度,直到满足所需的约束。我们在 Safety Gym 基准上评估了我们的算法,并证明了课程有助于底层安全 RL 算法避免局部最优,提高了奖励和安全目标的性能。 (2)我们提出在一个修改过的 MDP 中学习策略,在这个"嵌入了安全性约束的 MDP"中,RL 代理的输出被转换成一系列的动作,这些动作通过一个轨迹优化器进行转换,确保在机器人当前处于安全和准静态配置的情况下是安全的。我们在 Safety Gym 基准上评估了我们的方法,并展示了我们在训练期间获得的奖励显著高于以前的工作,同时也少有安全性违规;而且,我们在推理期间没有任何安全性违规。我们还在真实的机器人推箱子任务上评估了我们的方法,并证明了我们的方法可以在现实世界中安全地部署。

成为VIP会员查看完整内容
28

相关内容

【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
34+阅读 · 2023年6月20日
【博士论文】弱反馈的序列决策问题
专知会员服务
22+阅读 · 2023年1月2日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
60+阅读 · 2021年11月22日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年7月14日
Arxiv
0+阅读 · 2023年7月12日
Arxiv
27+阅读 · 2023年1月12日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
34+阅读 · 2023年6月20日
【博士论文】弱反馈的序列决策问题
专知会员服务
22+阅读 · 2023年1月2日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
60+阅读 · 2021年11月22日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员