Modern tasks in reinforcement learning have large state and action spaces. To deal with them efficiently, one often uses predefined feature mapping to represent states and actions in a low-dimensional space. In this paper, we study reinforcement learning for discounted Markov Decision Processes (MDPs), where the transition kernel can be parameterized as a linear function of certain feature mapping. We propose a novel algorithm that makes use of the feature mapping and obtains a $\tilde O(d\sqrt{T}/(1-\gamma)^2)$ regret, where $d$ is the dimension of the feature space, $T$ is the time horizon and $\gamma$ is the discount factor of the MDP. To the best of our knowledge, this is the first polynomial regret bound without accessing the generative model or making strong assumptions such as ergodicity of the MDP. By constructing a special class of MDPs, we also show that for any algorithms, the regret is lower bounded by $\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$. Our upper and lower bound results together suggest that the proposed reinforcement learning algorithm is near-optimal up to a $(1-\gamma)^{-0.5}$ factor.


翻译:强化学习的现代任务具有很大的状态和行动空间。 要有效处理它们, 人们经常使用预定义的特征映射来代表低维空间的国家和行动。 在本文中, 我们研究对折扣的 Markov 决策进程( MDPs) 的强化学习, 在那里, 过渡内核可以作为某些特征映射的线性功能参数化。 我们提出一种新的算法, 利用特征映射并获得 $\ tde O (d\ sqrt{T}/ (1-\ gamma) $2 的遗憾, 其中地块空间的维度为$, $T$ 是时空, $\ gammas是 MDP 的折扣系数。 对我们所知, 这是第一个不使用基因模型或作出诸如 MDP ERGatity 的强烈假设的多元性遗憾捆绑在一起。 通过构建一个特殊的 MDPs 类, 我们还表明, 对于任何算法来说, 其悔恨度都较低, 由$\ Omega (dqrt{T} / (1-\\ gamamamamamama) sult asult leginal legate legal) agate legregal galgate agalgalgalgalgalgalgalgalslate.

0
下载
关闭预览

相关内容

【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
已删除
将门创投
5+阅读 · 2018年11月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
已删除
将门创投
5+阅读 · 2018年11月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员