Density Constrained Reinforcement Learning

Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan

https://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821

我们从一个新的角度研究约束强化学习(CRL),通过直接设置状态密度函数的约束,而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释,并能够表达各种各样的约束,如资源限制和安全要求。密度约束还可以避免设计和调优成本功能的耗时过程,这些成本功能是基于价值功能的约束来编码系统规范所需要的。利用密度函数与Q函数之间的对偶性,提出了一种求解密度约束的RL问题的有效算法,保证了约束条件的满足。我们证明了当策略更新不完美时,所提出的算法收敛到一个有界误差的接近最优解。我们使用一组全面的实验来证明我们的方法相对于最先进的CRL方法的优势,包括广泛的密度约束任务和标准的CRL基准测试,如Safety-Gym。

成为VIP会员查看完整内容
21

相关内容

专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
81+阅读 · 2021年5月10日
专知会员服务
29+阅读 · 2021年4月12日
专知会员服务
29+阅读 · 2020年12月14日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
凸优化及无约束最优化
AINLP
3+阅读 · 2019年2月15日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
【学科发展报告】自适应动态规划
中国自动化学会
24+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
Arxiv
0+阅读 · 2021年8月27日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年3月22日
VIP会员
相关主题
相关VIP内容
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
81+阅读 · 2021年5月10日
专知会员服务
29+阅读 · 2021年4月12日
专知会员服务
29+阅读 · 2020年12月14日
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
凸优化及无约束最优化
AINLP
3+阅读 · 2019年2月15日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
【学科发展报告】自适应动态规划
中国自动化学会
24+阅读 · 2018年9月14日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
微信扫码咨询专知VIP会员