【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf - 专知VIP

会员服务 ·

23

普林斯顿大学 (Princeton University) · 安全强化学习 · 强化学习 · 约束学习 · 博士论文 ·

2023 年 2 月 2 日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

为自动驾驶汽车等自动系统设计控制策略是复杂的。为此，研究人员越来越多地使用强化学习(RL)来设计策略。然而，对于安全攸关系统而言，保障其在实际训练和部署过程中的安全运行是一个尚未解决的问题。此外，当前的强化学习方法需要精确的模拟器(模型)来学习策略，这在现实世界的应用中很少出现这种情况。**本文介绍了一个安全的强化学习框架，提供了安全保证，并开发了一种学习系统动力学的受限学习方法。本文开发了一种安全的强化学习算法，在满足安全约束的同时优化任务奖励。在提供基线策略时，考虑安全强化学习问题的一种变体。**基线策略可以产生于演示数据，可以为学习提供有用的线索，但不能保证满足安全约束。本文提出一种策略优化算法来解决该问题。将一种安全的强化学习算法应用于腿部运动，以展示其在现实世界的适用性。本文提出一种算法，在使机器人远离不安全状态的安全恢复策略和优化的学习器策略之间进行切换，以完成任务。进一步利用系统动力学的知识来确定策略的切换。结果表明，我们可以在不摔倒的情况下在现实世界中学习腿部运动技能。重新审视了已知系统动力学的假设，并开发了一种从观察中进行系统辨识的方法。知道系统的参数可以提高模拟的质量，从而最小化策略的意外行为。最后，虽然safe RL在许多应用中都有很大的前景，但目前的方法需要领域专业知识来指定约束。本文引入了一个新的基准，在自由格式的文本中指定约束。本文开发了一个模型，可以解释和遵守这种文本约束。我们证明该方法比基线获得了更高的回报和更少的约束违背。

成为VIP会员查看完整内容

40

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【UIUC博士论文】高效多智能体深度强化学习，130页pdf

【UIUC博士论文】高效多智能体深度强化学习，130页pdf

专知会员服务

73+阅读 · 2023年1月14日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

索邦大学最新博士论文《无人机辅助无线网络的机器学习方法》，167页pdf

索邦大学最新博士论文《无人机辅助无线网络的机器学习方法》，167页pdf

专知会员服务

50+阅读 · 2022年4月8日

KDD2021最佳博士论文奖揭晓！斯坦福Aditya博士获得《在有限监督条件下的学习表征和推理》

KDD2021最佳博士论文奖揭晓！斯坦福Aditya博士获得《在有限监督条件下的学习表征和推理》

专知会员服务

30+阅读 · 2021年8月7日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知

5+阅读 · 2022年11月10日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

矩阵补全中的非凸、随机和在线方法

国家自然科学基金

0+阅读 · 2014年12月31日

可变结构体机器人多步态多相型运动机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多输入多输出线性系统量化反馈滑模控制设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

双足机器人多源随机不确定性建模与智能控制及其动力学仿真实验

国家自然科学基金

1+阅读 · 2012年12月31日

基于演算子理论的多输入多输出磁滞非线性系统的鲁棒控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

含脊柱驱动关节四足机器人跳跃运动落地稳定性研究

国家自然科学基金

2+阅读 · 2012年12月31日

轮足式机器人越障临界载荷动态分配与关节柔顺性鲁棒控制方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

故障条件下电能质量调节器的强欠驱动特性与容错控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

贝尔曼-伊萨克方程的研究和金融应用

国家自然科学基金

0+阅读 · 2012年12月31日

Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation

Arxiv

0+阅读 · 2023年3月23日

Relaxation-based importance sampling for structural reliability analysis

Arxiv

0+阅读 · 2023年3月23日

Policy Optimization for Personalized Interventions in Behavioral Health

Arxiv

0+阅读 · 2023年3月21日

Algorithmic Solutions for Maximizing Shareable Costs

Arxiv

0+阅读 · 2023年3月21日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

安全强化学习

相关VIP内容

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【UIUC博士论文】高效多智能体深度强化学习，130页pdf

【UIUC博士论文】高效多智能体深度强化学习，130页pdf

专知会员服务

73+阅读 · 2023年1月14日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

索邦大学最新博士论文《无人机辅助无线网络的机器学习方法》，167页pdf

索邦大学最新博士论文《无人机辅助无线网络的机器学习方法》，167页pdf

专知会员服务

50+阅读 · 2022年4月8日

KDD2021最佳博士论文奖揭晓！斯坦福Aditya博士获得《在有限监督条件下的学习表征和推理》

KDD2021最佳博士论文奖揭晓！斯坦福Aditya博士获得《在有限监督条件下的学习表征和推理》

专知会员服务

30+阅读 · 2021年8月7日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《毁灭算法：解析以色列在加沙的AI军事行动》

【COLT 2025最新教程】语言生成

以机器速度锁定目标：人工智能的能力与局限

【ICML2025】通过在线世界模型规划的持续强化学习

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知

5+阅读 · 2022年11月10日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

相关基金

矩阵补全中的非凸、随机和在线方法

国家自然科学基金

0+阅读 · 2014年12月31日

可变结构体机器人多步态多相型运动机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多输入多输出线性系统量化反馈滑模控制设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

双足机器人多源随机不确定性建模与智能控制及其动力学仿真实验

国家自然科学基金

1+阅读 · 2012年12月31日

基于演算子理论的多输入多输出磁滞非线性系统的鲁棒控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

含脊柱驱动关节四足机器人跳跃运动落地稳定性研究

国家自然科学基金

2+阅读 · 2012年12月31日

轮足式机器人越障临界载荷动态分配与关节柔顺性鲁棒控制方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

故障条件下电能质量调节器的强欠驱动特性与容错控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

贝尔曼-伊萨克方程的研究和金融应用

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation

Arxiv

0+阅读 · 2023年3月23日

Relaxation-based importance sampling for structural reliability analysis

Arxiv

0+阅读 · 2023年3月23日

Policy Optimization for Personalized Interventions in Behavioral Health

Arxiv

0+阅读 · 2023年3月21日

Algorithmic Solutions for Maximizing Shareable Costs

Arxiv

0+阅读 · 2023年3月21日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

微信扫码咨询专知VIP会员