【ICML2023】在受限逆强化学习中的可识别性和泛化能力 - 专知VIP

会员服务 ·

11

逆强化学习 · 强化学习 ·

2023 年 6 月 5 日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（RL）的两个主要挑战是设计适当的奖励函数和确保学习策略的安全性。为解决这些挑战，我们提出了一个用于受限马尔可夫决策过程中的反向强化学习（IRL）的理论框架。从凸分析的角度出发，我们扩展了关于奖励可识别性和泛化性的先前结果，使其适用于受限环境和更一般的正则化类。特别地，我们表明，相对于潜在塑造（Cao等人，2021）的可识别性是熵正则化的结果，并且在其他正则化或安全性约束存在时，一般可能不再适用。我们还表明，为了确保对新的转移法则和约束的泛化能力，必须识别出真实奖励到一个常数。此外，我们得出了学习奖励次优性的有限样本保证，并在网格世界环境中验证了我们的结果。

https://www.zhuanzhi.ai/paper/d27fc0061d173d3b14cabaa7060943eb

成为VIP会员查看完整内容

26

相关内容

逆强化学习

逆强化学习

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

39+阅读 · 2023年6月2日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】图对比学习自动化

专知会员服务

41+阅读 · 2021年6月19日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

阿姆斯特丹大学博士论文《深度表示中的不变性》，96和pdf

阿姆斯特丹大学博士论文《深度表示中的不变性》，96和pdf

专知

1+阅读 · 2022年11月3日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群集智能的非凸稀疏优化算法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于包间距离、直接以包为学习对象的多示例学习维数约减问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

非凸稀疏先验图像恢复建模理论和算法

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

非局部模型的自适应算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

鲁棒的目标跟踪和识别新方法及在羽绒识别中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于小波变换的仿射不变形状表示算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于端元特征提取的高光谱遥感图像压缩

国家自然科学基金

0+阅读 · 2009年12月31日

Gaussian Graph with Prototypical Contrastive Learning in E-Commerce Bundle Recommendation

Arxiv

0+阅读 · 2023年7月25日

An Explainable Model-Agnostic Algorithm for CNN-based Biometrics Verification

Arxiv

0+阅读 · 2023年7月25日

K-VIL: Keypoints-based Visual Imitation Learning

Arxiv

0+阅读 · 2023年7月25日

Knapsack: Connectedness, Path, and Shortest-Path

Arxiv

0+阅读 · 2023年7月24日

A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multimodal

Arxiv

0+阅读 · 2023年7月22日

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization

Arxiv

0+阅读 · 2023年7月21日

Friction Interventions to Curb the Spread of Misinformation on Social Media

Arxiv

0+阅读 · 2023年7月21日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

VIP会员

相关主题

逆强化学习

相关VIP内容

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

39+阅读 · 2023年6月2日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】图对比学习自动化

专知会员服务

41+阅读 · 2021年6月19日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型基准综述

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

【剑桥博士论文】多智能体学习中的神经多样性

以色列-伊朗空战：短暂而激烈冲突的启示

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知

2+阅读 · 2022年11月4日

阿姆斯特丹大学博士论文《深度表示中的不变性》，96和pdf

阿姆斯特丹大学博士论文《深度表示中的不变性》，96和pdf

专知

1+阅读 · 2022年11月3日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

【CMU博士论文】多媒体内容解纠缠表示，100页pdf

专知

0+阅读 · 2022年8月8日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

相关基金

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群集智能的非凸稀疏优化算法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于包间距离、直接以包为学习对象的多示例学习维数约减问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

非凸稀疏先验图像恢复建模理论和算法

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

非局部模型的自适应算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

鲁棒的目标跟踪和识别新方法及在羽绒识别中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于小波变换的仿射不变形状表示算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于端元特征提取的高光谱遥感图像压缩

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Gaussian Graph with Prototypical Contrastive Learning in E-Commerce Bundle Recommendation

Arxiv

0+阅读 · 2023年7月25日

An Explainable Model-Agnostic Algorithm for CNN-based Biometrics Verification

Arxiv

0+阅读 · 2023年7月25日

K-VIL: Keypoints-based Visual Imitation Learning

Arxiv

0+阅读 · 2023年7月25日

Knapsack: Connectedness, Path, and Shortest-Path

Arxiv

0+阅读 · 2023年7月24日

A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multimodal

Arxiv

0+阅读 · 2023年7月22日

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization

Arxiv

0+阅读 · 2023年7月21日

Friction Interventions to Curb the Spread of Misinformation on Social Media

Arxiv

0+阅读 · 2023年7月21日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

微信扫码咨询专知VIP会员