【CMU硕士论文】探索安全强化学习在序列决策制定中的应用 - 专知VIP

会员服务 ·

14

CMU · 安全强化学习 · 序列决策 ·

2023 年 5 月 27 日

【CMU硕士论文】探索安全强化学习在序列决策制定中的应用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

安全强化学习（RL）专注于训练策略以最大化奖励，同时确保安全性。这是将 RL 应用于关乎安全的实际应用的重要步骤。然而，由于需要在最大化奖励和满足安全约束之间取得平衡，安全 RL 存在挑战，这可能导致训练不稳定和过于保守的行为。在这篇论文中，我们提出了两种解决上述安全 RL 问题的方法：（1）我们提出了自我节奏的安全强化学习，它将自我节奏的课程与基础的安全 RL 算法 PPO-Lagrangian 结合在一起。在训练过程中，策略从简单的安全约束开始，逐渐增加约束的难度，直到满足所需的约束。我们在 Safety Gym 基准上评估了我们的算法，并证明了课程有助于底层安全 RL 算法避免局部最优，提高了奖励和安全目标的性能。（2）我们提出在一个修改过的 MDP 中学习策略，在这个"嵌入了安全性约束的 MDP"中，RL 代理的输出被转换成一系列的动作，这些动作通过一个轨迹优化器进行转换，确保在机器人当前处于安全和准静态配置的情况下是安全的。我们在 Safety Gym 基准上评估了我们的方法，并展示了我们在训练期间获得的奖励显著高于以前的工作，同时也少有安全性违规；而且，我们在推理期间没有任何安全性违规。我们还在真实的机器人推箱子任务上评估了我们的方法，并证明了我们的方法可以在现实世界中安全地部署。

成为VIP会员查看完整内容

29

相关内容

CMU

【CMU博士论文】非参数因果推断，241页pdf

【CMU博士论文】非参数因果推断，241页pdf

专知会员服务

35+阅读 · 2023年6月20日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

40+阅读 · 2023年2月2日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【博士论文】弱反馈的序列决策问题

【博士论文】弱反馈的序列决策问题

专知会员服务

24+阅读 · 2023年1月2日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知会员服务

48+阅读 · 2022年9月5日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》2022最新论文

专知

5+阅读 · 2022年9月23日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知

3+阅读 · 2022年9月6日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

基于刚柔-机电耦合的主动约束层阻尼柔性机器人动力学建模与振动控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

中足重建纠正可复性平足症力学环境的应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

极地探测机器人多翼帆风力直接驱动研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于近似动态规划的非线性系统鲁棒优化控制

国家自然科学基金

2+阅读 · 2012年12月31日

小种群效应、网络结构及激励机制对合作行为演化动态的影响

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

医疗服务中的资源调度与优化

国家自然科学基金

4+阅读 · 2011年12月31日

Atlas-Based Interpretable Age Prediction

Arxiv

0+阅读 · 2023年7月14日

Evaluating Human-Language Model Interaction

Arxiv

0+阅读 · 2023年7月12日

Functional Adaptive Double-Sparsity Estimator for Functional Linear Regression Model with Multiple Functional Covariates

Arxiv

0+阅读 · 2023年7月12日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Multimodal Deep Learning

Arxiv

28+阅读 · 2023年1月12日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Deep learning for cardiac image segmentation: A review

Deep learning for cardiac image segmentation: A review

Arxiv

21+阅读 · 2019年11月9日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

安全强化学习

相关VIP内容

【CMU博士论文】非参数因果推断，241页pdf

【CMU博士论文】非参数因果推断，241页pdf

专知会员服务

35+阅读 · 2023年6月20日

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

【CMU博士论文】深度神经网络鲁棒训练与评估方法，101页pdf

专知会员服务

47+阅读 · 2023年6月18日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

40+阅读 · 2023年2月2日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【博士论文】弱反馈的序列决策问题

【博士论文】弱反馈的序列决策问题

专知会员服务

24+阅读 · 2023年1月2日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知会员服务

48+阅读 · 2022年9月5日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《小型无人机系统侦测追踪技术：声学、计算机视觉与深度学习融合方案》最新98页

《"牧羊人网格"拦截策略：实现无人机集群可靠拦截的新范式》

光纤无人机：反无人机系统的重大挑战

《作战建模与仿真实证研究》

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》2022最新论文

专知

5+阅读 · 2022年9月23日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知

3+阅读 · 2022年9月6日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

相关基金

基于刚柔-机电耦合的主动约束层阻尼柔性机器人动力学建模与振动控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

中足重建纠正可复性平足症力学环境的应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

极地探测机器人多翼帆风力直接驱动研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于近似动态规划的非线性系统鲁棒优化控制

国家自然科学基金

2+阅读 · 2012年12月31日

小种群效应、网络结构及激励机制对合作行为演化动态的影响

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

医疗服务中的资源调度与优化

国家自然科学基金

4+阅读 · 2011年12月31日

相关论文

Atlas-Based Interpretable Age Prediction

Arxiv

0+阅读 · 2023年7月14日

Evaluating Human-Language Model Interaction

Arxiv

0+阅读 · 2023年7月12日

Functional Adaptive Double-Sparsity Estimator for Functional Linear Regression Model with Multiple Functional Covariates

Arxiv

0+阅读 · 2023年7月12日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Multimodal Deep Learning

Arxiv

28+阅读 · 2023年1月12日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Deep learning for cardiac image segmentation: A review

Deep learning for cardiac image segmentation: A review

Arxiv

21+阅读 · 2019年11月9日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员