强化学习(RL)的两个主要挑战是设计适当的奖励函数和确保学习策略的安全性。为解决这些挑战,我们提出了一个用于受限马尔可夫决策过程中的反向强化学习(IRL)的理论框架。从凸分析的角度出发,我们扩展了关于奖励可识别性和泛化性的先前结果,使其适用于受限环境和更一般的正则化类。特别地,我们表明,相对于潜在塑造(Cao等人,2021)的可识别性是熵正则化的结果,并且在其他正则化或安全性约束存在时,一般可能不再适用。我们还表明,为了确保对新的转移法则和约束的泛化能力,必须识别出真实奖励到一个常数。此外,我们得出了学习奖励次优性的有限样本保证,并在网格世界环境中验证了我们的结果。

https://www.zhuanzhi.ai/paper/d27fc0061d173d3b14cabaa7060943eb

成为VIP会员查看完整内容
26

相关内容

【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
71+阅读 · 2023年2月23日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
25+阅读 · 2022年5月20日
专知会员服务
19+阅读 · 2021年9月19日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年6月19日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
82+阅读 · 2021年5月10日
【ICML2022】熵因果推理:图的可辨识性
专知
1+阅读 · 2022年8月6日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月25日
Arxiv
0+阅读 · 2023年7月24日
Arxiv
12+阅读 · 2022年4月12日
Arxiv
58+阅读 · 2021年11月15日
VIP会员
相关VIP内容
【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
71+阅读 · 2023年2月23日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
25+阅读 · 2022年5月20日
专知会员服务
19+阅读 · 2021年9月19日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年6月19日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
82+阅读 · 2021年5月10日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员