【ICML2021】密度约束强化学习 - 专知VIP

会员服务 ·

2

强化学习 ·

2021 年 6 月 26 日

【ICML2021】密度约束强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Density Constrained Reinforcement Learning

Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan

https://www.zhuanzhi.ai/paper/4fa1ffa9d790da75a55a7f6e0aef8821

我们从一个新的角度研究约束强化学习(CRL)，通过直接设置状态密度函数的约束，而不是以往研究中考虑的值函数。状态密度具有清晰的物理和数学解释，并能够表达各种各样的约束，如资源限制和安全要求。密度约束还可以避免设计和调优成本功能的耗时过程，这些成本功能是基于价值功能的约束来编码系统规范所需要的。利用密度函数与Q函数之间的对偶性，提出了一种求解密度约束的RL问题的有效算法，保证了约束条件的满足。我们证明了当策略更新不完美时，所提出的算法收敛到一个有界误差的接近最优解。我们使用一组全面的实验来证明我们的方法相对于最先进的CRL方法的优势，包括广泛的密度约束任务和标准的CRL基准测试，如Safety-Gym。

成为VIP会员查看完整内容

22

相关内容

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】低秩Sinkhorn 分解

专知会员服务

39+阅读 · 2021年8月20日

[ICML2021]. GRAND：图神经扩散

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【强化学习最新综述】详解强化学习当前进展及未来方向

【强化学习最新综述】详解强化学习当前进展及未来方向

专知

8+阅读 · 2020年1月23日

凸优化及无约束最优化

凸优化及无约束最优化

AINLP

3+阅读 · 2019年2月15日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

【学科发展报告】自适应动态规划

【学科发展报告】自适应动态规划

中国自动化学会

24+阅读 · 2018年9月14日

【学界】对抗强化学习最新研究：可用于自动驾驶汽车「碰撞避免机制」检测

【学界】对抗强化学习最新研究：可用于自动驾驶汽车「碰撞避免机制」检测

GAN生成式对抗网络

9+阅读 · 2018年6月11日

资源 | 从变分边界到进化策略，一文读懂机器学习变换技巧

资源 | 从变分边界到进化策略，一文读懂机器学习变换技巧

机器之心

4+阅读 · 2017年11月18日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

Deformable Image Registration using Neural ODEs

Arxiv

0+阅读 · 2021年8月27日

Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models?

Arxiv

0+阅读 · 2021年8月26日

UDO: Universal Database Optimization using Reinforcement Learning

Arxiv

0+阅读 · 2021年8月26日

Adversary agent reinforcement learning for pursuit-evasion

Arxiv

0+阅读 · 2021年8月25日

FSDR: Frequency Space Domain Randomization for Domain Generalization

Arxiv

4+阅读 · 2021年3月3日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Features for Multi-Target Multi-Camera Tracking and Re-Identification

Arxiv

7+阅读 · 2018年3月28日

Long-Term Visual Object Tracking Benchmark

Arxiv

3+阅读 · 2018年3月22日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

VIP会员

相关主题

相关VIP内容

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】低秩Sinkhorn 分解

专知会员服务

39+阅读 · 2021年8月20日

[ICML2021]. GRAND：图神经扩散

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

约束进化算法及其应用研究综述

专知会员服务

31+阅读 · 2021年4月12日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《多智能体不确定环境追逃博弈研究》216页

美智库最新发布《解放军"人机编组协同作战"发展路径：理论与实践》53页

现代战争"杀伤区"理论：空间尺度与结构特征、控制手段与毁伤机制、生存策略与战线转移

《俄军无人机创新技术或已在乌克兰达成"战场空中封锁"作战效果》最新18页报告

相关资讯

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【强化学习最新综述】详解强化学习当前进展及未来方向

【强化学习最新综述】详解强化学习当前进展及未来方向

专知

8+阅读 · 2020年1月23日

凸优化及无约束最优化

凸优化及无约束最优化

AINLP

3+阅读 · 2019年2月15日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

【学科发展报告】自适应动态规划

【学科发展报告】自适应动态规划

中国自动化学会

24+阅读 · 2018年9月14日

【学界】对抗强化学习最新研究：可用于自动驾驶汽车「碰撞避免机制」检测

【学界】对抗强化学习最新研究：可用于自动驾驶汽车「碰撞避免机制」检测

GAN生成式对抗网络

9+阅读 · 2018年6月11日

资源 | 从变分边界到进化策略，一文读懂机器学习变换技巧

资源 | 从变分边界到进化策略，一文读懂机器学习变换技巧

机器之心

4+阅读 · 2017年11月18日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Deformable Image Registration using Neural ODEs

Arxiv

0+阅读 · 2021年8月27日

Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models?

Arxiv

0+阅读 · 2021年8月26日

UDO: Universal Database Optimization using Reinforcement Learning

Arxiv

0+阅读 · 2021年8月26日

Adversary agent reinforcement learning for pursuit-evasion

Arxiv

0+阅读 · 2021年8月25日

FSDR: Frequency Space Domain Randomization for Domain Generalization

Arxiv

4+阅读 · 2021年3月3日

Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks

Arxiv

14+阅读 · 2021年1月31日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Features for Multi-Target Multi-Camera Tracking and Re-Identification

Arxiv

7+阅读 · 2018年3月28日

Long-Term Visual Object Tracking Benchmark

Arxiv

3+阅读 · 2018年3月22日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

微信扫码咨询专知VIP会员