Reinforcement learning (RL) has exceeded human performance in many synthetic settings such as video games and Go. However, real-world deployment of end-to-end RL models is less common, as RL models can be very sensitive to slight perturbation of the environment. The robust Markov decision process (MDP) framework -- in which the transition probabilities belong to an uncertainty set around a nominal model -- provides one way to develop robust models. While previous analysis shows RL algorithms are effective assuming access to a generative model, it remains unclear whether RL can be efficient under a more realistic online setting, which requires a careful balance between exploration and exploitation. In this work, we consider online robust MDP by interacting with an unknown nominal system. We propose a robust optimistic policy optimization algorithm that is provably efficient. To address the additional uncertainty caused by an adversarial environment, our model features a new optimistic update rule derived via Fenchel conjugates. Our analysis establishes the first regret bound for online robust MDPs.


翻译:强化学习(RL)在许多合成环境(如视频游戏和Go)中超过了人的性能。然而,在视频游戏和Go等许多合成环境中,现实世界中端端至端RL模型的部署并不常见,因为RL模型对环境轻微扰动非常敏感。强大的Markov决策程序(MDP)框架 -- -- 其中过渡概率属于围绕名义模型的不确定性 -- -- 提供了开发稳健模型的一种方法。虽然以前的分析显示RL算法有效地假设可以使用基因化模型,但是仍然不清楚在更现实的在线环境中RL算法是否有效,这需要在探索和开发之间保持谨慎的平衡。在这项工作中,我们通过与未知的名义系统互动来考虑在线强大的MDP。我们提出了一种稳健的乐观的政策优化算法,这种算法非常有效。为了解决由对抗性环境造成的额外不确定性,我们的模型采用了一种通过Fenchel conjugates得出的新的乐观更新规则。我们的分析为在线强度的MDP提供了首度的遗憾。

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
144+阅读 · 2020年2月1日
专知会员服务
135+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
112+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
118+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
66+阅读 · 2019年10月10日
ACM MM 2022 Call for Papers
CCF多媒体专委会
4+阅读 · 3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
0+阅读 · 3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
0+阅读 · 2月13日
强化学习三篇论文 避免遗忘等
CreateAMind
13+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
16+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
35+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
30+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
19+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
144+阅读 · 2020年2月1日
专知会员服务
135+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
112+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
118+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
66+阅读 · 2019年10月10日
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
4+阅读 · 3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
0+阅读 · 3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
0+阅读 · 2月13日
强化学习三篇论文 避免遗忘等
CreateAMind
13+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
16+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
35+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
30+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
19+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员