Safe reinforcement learning (RL) with assured satisfaction of hard state constraints during training has recently received a lot of attention. Safety filters, e.g., based on control barrier functions (CBFs), provide a promising way for safe RL via modifying the unsafe actions of an RL agent on the fly. Existing safety filter-based approaches typically involve learning of uncertain dynamics and quantifying the learned model error, which leads to conservative filters before a large amount of data is collected to learn a good model, thereby preventing efficient exploration. This paper presents a method for safe and efficient model-free RL using disturbance observers (DOBs) and control barrier functions (CBFs). Unlike most existing safe RL methods that deal with hard state constraints, our method does not involve model learning, and leverages DOBs to accurately estimate the pointwise value of the uncertainty, which is then incorporated into a robust CBF condition to generate safe actions. The DOB-based CBF can be used as a safety filter with any model-free RL algorithms by minimally modifying the actions of an RL agent whenever necessary to ensure safety throughout the learning process. Simulation results on a unicycle and a 2D quadrotor demonstrate that the proposed method outperforms a state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based model learning, in terms of safety violation rate, and sample and computational efficiency.


翻译:安全过滤器,例如基于控制屏障功能(CBFs)的安全过滤器,通过修改飞行中的RL代理器的不安全行动,为安全过滤器提供了一个有希望的方法。现有的基于安全过滤器的方法通常包括学习不确定的动态和量化所学模型错误,这导致在收集大量数据之前采用保守的过滤器,以学习一个好模型,从而防止有效的探索。本文件介绍了使用扰动观察员(DBs)和控制屏障功能(CBFs)安全和高效无模型的RL方法。与大多数现有的处理硬性限制的安全过滤器方法不同,我们的方法并不涉及模型学习,而是利用DBOBs准确估计不确定性的点值,然后将其纳入一个强有力的CBFF条件,以产生安全行动。基于DAB的CBFFFB可以使用任何基于模型的无模式的RL算法作为安全过滤器,必要时尽可能降低RL代理器的行动,以确保整个学习过程中的安全。在拟议的安全性成本标准、成本标准、成本标准、成本标准、标准、标准、标准、标准标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准、标准

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年9月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium6
中国图象图形学学会CSIG
2+阅读 · 2021年11月12日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium5
中国图象图形学学会CSIG
1+阅读 · 2021年11月11日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年2月22日
Arxiv
21+阅读 · 2022年11月8日
Arxiv
66+阅读 · 2022年4月13日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关资讯
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium6
中国图象图形学学会CSIG
2+阅读 · 2021年11月12日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium5
中国图象图形学学会CSIG
1+阅读 · 2021年11月11日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员