如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf - 专知VIP

会员服务 ·

23

强化学习 · 苏黎世联邦理工学院（ETH Zürich） · 安全性 · 鲁棒性 ·

2022 年 10 月 25 日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，RL的显著成就使其在人工智能研究的前沿占有一席之地。最关键的是，这些结果大多是在模拟环境中获得的，在模拟环境中，不良行为不会产生有害后果。然而，为了释放RL的全部潜力，我们希望在现实世界中部署它。虽然这扩大了RL有益影响的范围，但也放大了其有害行为的后果。因此，我们必须理解和解决可能导致RL智能体在现实世界中做出潜在破坏性决策的原因。

https://www.research-collection.ethz.ch/handle/20.500.11850/540581

本文研究了小数据环境下由不准确的模型可能导致的RL不安全行为。特别地，它关注的是对分布偏移的鲁棒性问题。不过度拟合训练数据，而泛化到以前未见过的环境条件，以及安全探索，即。，在训练过程中安全获取数据。

我们首先从线性控制理论引入鲁棒性指标的无模型近似。我们利用我们的方法为Furuta摆设计控制策略，并在模拟到现实和硬件实验中演示了它们的鲁棒性，其中包括一个显著的分布位移。

在此基础上，研究了将安全表示为一组未知光滑约束的目标导向安全勘探问题。针对这一问题，我们提出了一种保证安全性和完整性的算法，并在模拟实验中表明，该算法在样本效率方面较现有方法有明显提高。然后，我们将其扩展到自适应控制问题，一类与外生变量引起的分布位移有关的经典控制问题。我们部署我们的算法来控制旋转轴驱动器在不断变化的环境。最后，我们提出了一个新的框架，将先验知识融入到安全勘探问题中，使我们可以解除以前的方法所做的许多假设，如平滑性。为该框架提供了安全保证，并将其与深度强化学习智能体相结合，以在具有挑战性的环境中安全地训练控制策略。

成为VIP会员查看完整内容

42

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知会员服务

65+阅读 · 2022年11月10日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知会员服务

41+阅读 · 2022年11月7日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知会员服务

48+阅读 · 2022年11月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

专知会员服务

58+阅读 · 2022年6月27日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知

6+阅读 · 2022年11月29日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知

4+阅读 · 2022年11月7日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

城市交通信号控制系统的扩展离散事件系统监督控制研究

国家自然科学基金

0+阅读 · 2013年12月31日

时间序列模型中稳健且有效估计及稳健变量选择问题的研究

国家自然科学基金

2+阅读 · 2013年12月31日

矿用输送带纵向撕裂故障在线监测及系统关键问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

大型异形件重型高效铣削技术及刀具失效机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

常微分方程中的几个经典问题

国家自然科学基金

2+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

撞击荷载作用下车桥系统的动力响应及列车运行安全控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

Robust convex biclustering with a tuning-free method

Arxiv

0+阅读 · 2022年12月9日

A Data-driven Cognitive Salience Model for Objective Perceptual Audio Quality Assessment

Arxiv

0+阅读 · 2022年12月8日

Objective Surgical Skills Assessment and Tool Localization: Results from the MICCAI 2021 SimSurgSkill Challenge

Objective Surgical Skills Assessment and Tool Localization: Results from the MICCAI 2021 SimSurgSkill Challenge

Arxiv

0+阅读 · 2022年12月8日

A Laplace Mixture Representation of the Horseshoe and Some Implications

Arxiv

0+阅读 · 2022年12月8日

Anderson acceleration for a regularized Bingham model

Arxiv

0+阅读 · 2022年12月8日

HALS: A Height-Aware Lidar Super-Resolution Framework for Autonomous Driving

Arxiv

0+阅读 · 2022年12月7日

Regularized ERM on random subspaces

Regularized ERM on random subspaces

Arxiv

0+阅读 · 2022年12月7日

Robust tests for equality of regression curves based on characteristic functions

Arxiv

0+阅读 · 2022年12月7日

Few-Shot Preference Learning for Human-in-the-Loop RL

Arxiv

0+阅读 · 2022年12月6日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

VIP会员

相关主题

苏黎世联邦理工学院（ETH Zürich）

相关VIP内容

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

神经网络如何安全可靠？牛津大学博士论文《贝叶斯神经网络的对抗鲁棒性》，206页pdf

专知会员服务

65+阅读 · 2022年11月10日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知会员服务

41+阅读 · 2022年11月7日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知会员服务

48+阅读 · 2022年11月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

43+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

专知会员服务

58+阅读 · 2022年6月27日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知

6+阅读 · 2022年11月29日

【苏黎世联邦理工博士论文】因果推断的混杂调整

【苏黎世联邦理工博士论文】因果推断的混杂调整

专知

4+阅读 · 2022年11月7日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知

6+阅读 · 2022年10月31日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

相关基金

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

城市交通信号控制系统的扩展离散事件系统监督控制研究

国家自然科学基金

0+阅读 · 2013年12月31日

时间序列模型中稳健且有效估计及稳健变量选择问题的研究

国家自然科学基金

2+阅读 · 2013年12月31日

矿用输送带纵向撕裂故障在线监测及系统关键问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

大型异形件重型高效铣削技术及刀具失效机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

常微分方程中的几个经典问题

国家自然科学基金

2+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

撞击荷载作用下车桥系统的动力响应及列车运行安全控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

相关论文

Robust convex biclustering with a tuning-free method

Arxiv

0+阅读 · 2022年12月9日

A Data-driven Cognitive Salience Model for Objective Perceptual Audio Quality Assessment

Arxiv

0+阅读 · 2022年12月8日

Objective Surgical Skills Assessment and Tool Localization: Results from the MICCAI 2021 SimSurgSkill Challenge

Objective Surgical Skills Assessment and Tool Localization: Results from the MICCAI 2021 SimSurgSkill Challenge

Arxiv

0+阅读 · 2022年12月8日

A Laplace Mixture Representation of the Horseshoe and Some Implications

Arxiv

0+阅读 · 2022年12月8日

Anderson acceleration for a regularized Bingham model

Arxiv

0+阅读 · 2022年12月8日

HALS: A Height-Aware Lidar Super-Resolution Framework for Autonomous Driving

Arxiv

0+阅读 · 2022年12月7日

Regularized ERM on random subspaces

Regularized ERM on random subspaces

Arxiv

0+阅读 · 2022年12月7日

Robust tests for equality of regression curves based on characteristic functions

Arxiv

0+阅读 · 2022年12月7日

Few-Shot Preference Learning for Human-in-the-Loop RL

Arxiv

0+阅读 · 2022年12月6日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

微信扫码咨询专知VIP会员