【ICML2022】可达性约束强化学习 - 专知VIP

会员服务 ·

11

约束强化学习 · ICML 2022 · 可达性CRL (RCRL) ·

2022 年 5 月 18 日

【ICML2022】可达性约束强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

约束强化学习(CRL)最近引起了人们的极大兴趣，因为满足安全约束对现实世界的问题至关重要。然而，现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面，在安全控制研究中，安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的，这个子集被称为可行集，对于给定的环境存在一个最优最大可行集。近年来的研究利用基于能量的方法，如控制屏障函数(CBF)、安全指数(SI)等，将安全控制与CRL相结合，利用可行集的先验保守估计，影响了学习策略的性能。针对这一问题，本文提出了一种可达性CRL (RCRL)方法，利用可达性分析来刻画最大可行集。我们用建立的自一致性条件刻画可行集，然后学习一个安全值函数作为CRL的约束。我们还利用多时间尺度随机逼近理论证明了所提算法收敛于局部最优，其中最大可行集是可以保证的。不同基准上的经验结果，如safecontrol-gym和Safety-Gym验证了学习的可行集，在最优标准中的性能，以及RCRL的约束满足，与最先进的CRL基线进行了比较。

https://www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8

成为VIP会员查看完整内容

23

相关内容

约束强化学习

约束强化学习

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】用神经控制微分方程建立反事实结果的连续时间模型

【ICML2022】用神经控制微分方程建立反事实结果的连续时间模型

专知会员服务

35+阅读 · 2022年6月24日

【ICML2022】闭式同构变换的时间序列对齐

【ICML2022】闭式同构变换的时间序列对齐

专知会员服务

12+阅读 · 2022年6月20日

【ICML2021】学习权衡不完美的示范

专知会员服务

15+阅读 · 2021年9月23日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

【ICML2021】白化自监督表示学习

专知会员服务

24+阅读 · 2021年6月14日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【ICML2022】张量卷积神经网络的统一权值初始化范式

【ICML2022】张量卷积神经网络的统一权值初始化范式

专知

2+阅读 · 2022年6月8日

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

专知

0+阅读 · 2022年5月28日

【CMU池跃洁等硬核书】满足低秩矩阵分解的非凸优化综述，69页pdf

【CMU池跃洁等硬核书】满足低秩矩阵分解的非凸优化综述，69页pdf

专知

3+阅读 · 2022年3月4日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知

0+阅读 · 2021年12月27日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知

0+阅读 · 2021年12月22日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【ICML2021】加速异构数据的分散式深度学习

【ICML2021】加速异构数据的分散式深度学习

专知

0+阅读 · 2021年7月7日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

患者就医决策与患者流优化分布建模分析研究

国家自然科学基金

1+阅读 · 2013年12月31日

随机混合时滞系统的稳定性分析与脉冲控制器设计

国家自然科学基金

0+阅读 · 2013年12月31日

随机控制系统的输入到状态稳定性

国家自然科学基金

0+阅读 · 2013年12月31日

基于T-S模型的核反应堆功率控制系统研究

国家自然科学基金

0+阅读 · 2012年12月31日

随机交通网络行驶时间可靠性分析的关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

驱动器饱和受限下分布式系统的合作控制

国家自然科学基金

0+阅读 · 2012年12月31日

Markov跳跃随机非线性系统的有限时间稳定与镇定

国家自然科学基金

1+阅读 · 2012年12月31日

偏差有界不确定动态系统容偏数据关联和估计融合研究

国家自然科学基金

0+阅读 · 2012年12月31日

分布式事件驱动的大规模网络化离散事件动态系统策略优化

国家自然科学基金

0+阅读 · 2011年12月31日

基于Copula的失效相关系统可靠性建模理论与优化方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Minimum $2$-edge strongly biconnected spanning directed subgraph problem

Arxiv

0+阅读 · 2022年7月7日

GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation

Arxiv

0+阅读 · 2022年7月6日

Gender Biases and Where to Find Them: Exploring Gender Bias in Pre-Trained Transformer-based Language Models Using Movement Pruning

Arxiv

0+阅读 · 2022年7月6日

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

Arxiv

0+阅读 · 2022年7月5日

ParGeo: A Library for Parallel Computational Geometry

Arxiv

0+阅读 · 2022年7月5日

Plan Execution for Multi-Agent Path Finding with Indoor Quadcopters

Arxiv

0+阅读 · 2022年7月5日

Learning and Evaluating Graph Neural Network Explanations based on Counterfactual and Factual Reasoning

Arxiv

17+阅读 · 2022年2月17日

Engagement Decision Support for Beyond Visual Range Air Combat

Engagement Decision Support for Beyond Visual Range Air Combat

Arxiv

63+阅读 · 2021年11月4日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

40+阅读 · 2021年8月30日

Low-Dimensional Hyperbolic Knowledge Graph Embeddings

Arxiv

14+阅读 · 2020年5月1日

VIP会员

相关主题

约束强化学习

可达性CRL (RCRL)

相关VIP内容

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】用神经控制微分方程建立反事实结果的连续时间模型

【ICML2022】用神经控制微分方程建立反事实结果的连续时间模型

专知会员服务

35+阅读 · 2022年6月24日

【ICML2022】闭式同构变换的时间序列对齐

【ICML2022】闭式同构变换的时间序列对齐

专知会员服务

12+阅读 · 2022年6月20日

【ICML2021】学习权衡不完美的示范

专知会员服务

15+阅读 · 2021年9月23日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

【ICML2021】白化自监督表示学习

专知会员服务

24+阅读 · 2021年6月14日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

《理解城市战及其在俄乌战争中的表现》报告

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

《建设式兵棋模拟作为战术集群配置优化的关键组成部分》

相关资讯

【ICML2022】张量卷积神经网络的统一权值初始化范式

【ICML2022】张量卷积神经网络的统一权值初始化范式

专知

2+阅读 · 2022年6月8日

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

专知

0+阅读 · 2022年5月28日

【CMU池跃洁等硬核书】满足低秩矩阵分解的非凸优化综述，69页pdf

【CMU池跃洁等硬核书】满足低秩矩阵分解的非凸优化综述，69页pdf

专知

3+阅读 · 2022年3月4日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法

专知

0+阅读 · 2021年12月27日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知

0+阅读 · 2021年12月22日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【ICML2021】加速异构数据的分散式深度学习

【ICML2021】加速异构数据的分散式深度学习

专知

0+阅读 · 2021年7月7日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

相关基金

患者就医决策与患者流优化分布建模分析研究

国家自然科学基金

1+阅读 · 2013年12月31日

随机混合时滞系统的稳定性分析与脉冲控制器设计

国家自然科学基金

0+阅读 · 2013年12月31日

随机控制系统的输入到状态稳定性

国家自然科学基金

0+阅读 · 2013年12月31日

基于T-S模型的核反应堆功率控制系统研究

国家自然科学基金

0+阅读 · 2012年12月31日

随机交通网络行驶时间可靠性分析的关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

驱动器饱和受限下分布式系统的合作控制

国家自然科学基金

0+阅读 · 2012年12月31日

Markov跳跃随机非线性系统的有限时间稳定与镇定

国家自然科学基金

1+阅读 · 2012年12月31日

偏差有界不确定动态系统容偏数据关联和估计融合研究

国家自然科学基金

0+阅读 · 2012年12月31日

分布式事件驱动的大规模网络化离散事件动态系统策略优化

国家自然科学基金

0+阅读 · 2011年12月31日

基于Copula的失效相关系统可靠性建模理论与优化方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Minimum $2$-edge strongly biconnected spanning directed subgraph problem

Arxiv

0+阅读 · 2022年7月7日

GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation

Arxiv

0+阅读 · 2022年7月6日

Gender Biases and Where to Find Them: Exploring Gender Bias in Pre-Trained Transformer-based Language Models Using Movement Pruning

Arxiv

0+阅读 · 2022年7月6日

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

Arxiv

0+阅读 · 2022年7月5日

ParGeo: A Library for Parallel Computational Geometry

Arxiv

0+阅读 · 2022年7月5日

Plan Execution for Multi-Agent Path Finding with Indoor Quadcopters

Arxiv

0+阅读 · 2022年7月5日

Learning and Evaluating Graph Neural Network Explanations based on Counterfactual and Factual Reasoning

Arxiv

17+阅读 · 2022年2月17日

Engagement Decision Support for Beyond Visual Range Air Combat

Engagement Decision Support for Beyond Visual Range Air Combat

Arxiv

63+阅读 · 2021年11月4日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

40+阅读 · 2021年8月30日

Low-Dimensional Hyperbolic Knowledge Graph Embeddings

Arxiv

14+阅读 · 2020年5月1日

微信扫码咨询专知VIP会员