本文提出了一种具有全局最优保证和复杂度分析的策略梯度法,用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度,它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全局最优。我们进一步开发了一种平滑鲁棒的策略梯度方法,并表明要实现-全局最优,复杂度为O(e−3)。然后我们将我们的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和价值函数的鲁棒行为-评论方法。我们进一步刻画了它在表格设置下的渐近收敛性和样本复杂性。最后,我们提供了仿真结果,以证明我们的方法的鲁棒性。

成为VIP会员查看完整内容
37

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
53+阅读 · 2022年6月15日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
33+阅读 · 2022年1月31日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
36+阅读 · 2021年5月29日
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
【ICML2021】统一鲁棒半监督变分自编码器
专知
1+阅读 · 2021年7月12日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
除了DQN/A3C,还有哪些高级强化学习成果
论智
15+阅读 · 2018年10月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年7月6日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
相关VIP内容
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
53+阅读 · 2022年6月15日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
33+阅读 · 2022年1月31日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
36+阅读 · 2021年5月29日
相关资讯
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
【ICML2021】统一鲁棒半监督变分自编码器
专知
1+阅读 · 2021年7月12日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
除了DQN/A3C,还有哪些高级强化学习成果
论智
15+阅读 · 2018年10月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员