约束强化学习(CRL)最近引起了人们的极大兴趣,因为满足安全约束对现实世界的问题至关重要。然而,现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面,在安全控制研究中,安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的,这个子集被称为可行集,对于给定的环境存在一个最优最大可行集。近年来的研究利用基于能量的方法,如控制屏障函数(CBF)、安全指数(SI)等,将安全控制与CRL相结合,利用可行集的先验保守估计,影响了学习策略的性能。针对这一问题,本文提出了一种可达性CRL (RCRL)方法,利用可达性分析来刻画最大可行集。我们用建立的自一致性条件刻画可行集,然后学习一个安全值函数作为CRL的约束。我们还利用多时间尺度随机逼近理论证明了所提算法收敛于局部最优,其中最大可行集是可以保证的。不同基准上的经验结果,如safecontrol-gym和Safety-Gym验证了学习的可行集,在最优标准中的性能,以及RCRL的约束满足,与最先进的CRL基线进行了比较。

https://www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8

成为VIP会员查看完整内容
22

相关内容

【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】闭式同构变换的时间序列对齐
专知会员服务
11+阅读 · 2022年6月20日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
21+阅读 · 2021年6月14日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
80+阅读 · 2021年5月10日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】闭式同构变换的时间序列对齐
专知会员服务
11+阅读 · 2022年6月20日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
21+阅读 · 2021年6月14日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
80+阅读 · 2021年5月10日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员