Density Constrained Reinforcement Learning
Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
https://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821
我们从一个新的角度研究约束强化学习(CRL),通过直接设置状态密度函数的约束,而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释,并能够表达各种各样的约束,如资源限制和安全要求。密度约束还可以避免设计和调优成本功能的耗时过程,这些成本功能是基于价值功能的约束来编码系统规范所需要的。利用密度函数与Q函数之间的对偶性,提出了一种求解密度约束的RL问题的有效算法,保证了约束条件的满足。我们证明了当策略更新不完美时,所提出的算法收敛到一个有界误差的接近最优解。我们使用一组全面的实验来证明我们的方法相对于最先进的CRL方法的优势,包括广泛的密度约束任务和标准的CRL基准测试,如Safety-Gym。