约束强化学习(CRL)最近引起了人们的极大兴趣,因为满足安全约束对现实世界的问题至关重要。然而,现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面,在安全控制研究中,安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的,这个子集被称为可行集,对于给定的环境存在一个最优最大可行集。近年来的研究利用基于能量的方法,如控制屏障函数(CBF)、安全指数(SI)等,将安全控制与CRL相结合,利用可行集的先验保守估计,影响了学习策略的性能。针对这一问题,本文提出了一种可达性CRL (RCRL)方法,利用可达性分析来刻画最大可行集。我们用建立的自一致性条件刻画可行集,然后学习一个安全值函数作为CRL的约束。我们还利用多时间尺度随机逼近理论证明了所提算法收敛于局部最优,其中最大可行集是可以保证的。不同基准上的经验结果,如safecontrol-gym和Safety-Gym验证了学习的可行集,在最优标准中的性能,以及RCRL的约束满足,与最先进的CRL基线进行了比较。
https://www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8