如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf - 专知

会员服务 ·

0

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

2022 年 10 月 25 日 专知

近年来，RL的显著成就使其在人工智能研究的前沿占有一席之地。最关键的是，这些结果大多是在模拟环境中获得的，在模拟环境中，不良行为不会产生有害后果。然而，为了释放RL的全部潜力，我们希望在现实世界中部署它。虽然这扩大了RL有益影响的范围，但也放大了其有害行为的后果。因此，我们必须理解和解决可能导致RL智能体在现实世界中做出潜在破坏性决策的原因。

https://www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。特别地，它关注的是对分布偏移的鲁棒性问题。不过度拟合训练数据，而泛化到以前未见过的环境条件，以及安全探索，即。，在训练过程中安全获取数据。

我们首先从线性控制理论引入鲁棒性指标的无模型近似。我们利用我们的方法为Furuta摆设计控制策略，并在模拟到现实和硬件实验中演示了它们的鲁棒性，其中包括一个显著的分布位移。

在此基础上，研究了将安全表示为一组未知光滑约束的目标导向安全勘探问题。针对这一问题，我们提出了一种保证安全性和完整性的算法，并在模拟实验中表明，该算法在样本效率方面较现有方法有明显提高。然后，我们将其扩展到自适应控制问题，一类与外生变量引起的分布位移有关的经典控制问题。我们部署我们的算法来控制旋转轴驱动器在不断变化的环境。

最后，我们提出了一个新的框架，将先验知识融入到安全勘探问题中，使我们可以解除以前的方法所做的许多假设，如平滑性。为该框架提供了安全保证，并将其与深度强化学习智能体相结合，以在具有挑战性的环境中安全地训练控制策略。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RLSR” 就可以获取《如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

9

相关内容

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

91+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知

1+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

专知

3+阅读 · 2022年9月9日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

基于在线逼近的不确定非线性系统自适应控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于非线性补偿的重复控制系统及鲁棒性设计

国家自然科学基金

0+阅读 · 2014年12月31日

具有部分不可测前提变量的模糊系统的控制器设计

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列异常值探测的Bayes方法及其在GNSS动态数据处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于梯度域计算模型的彩色图像去运动模糊与特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

不完全信息下信用风险的建模，定价以及对冲——基于非线性滤波理论

国家自然科学基金

0+阅读 · 2013年12月31日

鲁棒性在线子空间辨识与跟踪的关键问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

时滞随机关联系统的分散控制与估计

国家自然科学基金

0+阅读 · 2012年12月31日

添加新型富钡相RE242制备高超导性能REBCO块材

国家自然科学基金

0+阅读 · 2011年12月31日

Lower Bounds for the Total Variation Distance Between Arbitrary Distributions with Given Means and Variances

Arxiv

0+阅读 · 2022年12月12日

Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks

Arxiv

0+阅读 · 2022年12月12日

Are internationally co-authored journal articles better quality? The UK case 2014-2020

Arxiv

0+阅读 · 2022年12月11日

Reinforcement Learning for Predicting Traffic Accidents

Arxiv

0+阅读 · 2022年12月9日

Task-Directed Exploration in Continuous POMDPs for Robotic Manipulation of Articulated Objects

Arxiv

0+阅读 · 2022年12月8日

Learning Quantum Processes and Hamiltonians via the Pauli Transfer Matrix

Arxiv

0+阅读 · 2022年12月8日

Intelligent Computing: The Latest Advances, Challenges and Future

Arxiv

56+阅读 · 2022年11月21日

Federated Learning Challenges and Opportunities: An Outlook

Arxiv

15+阅读 · 2022年2月1日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

相关VIP内容

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

91+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知

1+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

专知

3+阅读 · 2022年9月9日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

相关基金

基于在线逼近的不确定非线性系统自适应控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于非线性补偿的重复控制系统及鲁棒性设计

国家自然科学基金

0+阅读 · 2014年12月31日

具有部分不可测前提变量的模糊系统的控制器设计

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列异常值探测的Bayes方法及其在GNSS动态数据处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于梯度域计算模型的彩色图像去运动模糊与特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

不完全信息下信用风险的建模，定价以及对冲——基于非线性滤波理论

国家自然科学基金

0+阅读 · 2013年12月31日

鲁棒性在线子空间辨识与跟踪的关键问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

时滞随机关联系统的分散控制与估计

国家自然科学基金

0+阅读 · 2012年12月31日

添加新型富钡相RE242制备高超导性能REBCO块材

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Lower Bounds for the Total Variation Distance Between Arbitrary Distributions with Given Means and Variances

Arxiv

0+阅读 · 2022年12月12日

Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks

Arxiv

0+阅读 · 2022年12月12日

Are internationally co-authored journal articles better quality? The UK case 2014-2020

Arxiv

0+阅读 · 2022年12月11日

Reinforcement Learning for Predicting Traffic Accidents

Arxiv

0+阅读 · 2022年12月9日

Task-Directed Exploration in Continuous POMDPs for Robotic Manipulation of Articulated Objects

Arxiv

0+阅读 · 2022年12月8日

Learning Quantum Processes and Hamiltonians via the Pauli Transfer Matrix

Arxiv

0+阅读 · 2022年12月8日

Intelligent Computing: The Latest Advances, Challenges and Future

Arxiv

56+阅读 · 2022年11月21日

Federated Learning Challenges and Opportunities: An Outlook

Arxiv

15+阅读 · 2022年2月1日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员