We consider the problem of local planning in fixed-horizon Markov Decision Processes (MDPs) with a generative model under the assumption that the optimal value function lies in the span of a feature map that is accessible through the generative model. As opposed to previous work where linear realizability of all policies was assumed, we consider the significantly relaxed assumption of a single linearly realizable (deterministic) policy. A recent lower bound established that the related problem when the action-value function of the optimal policy is linearly realizable requires an exponential number of queries, either in H (the horizon of the MDP) or d (the dimension of the feature mapping). Their construction crucially relies on having an exponentially large action set. In contrast, in this work, we establish that poly$(H, d)$ learning is possible (with state value function realizability) whenever the action set is small (i.e. O(1)). In particular, we present the TensorPlan algorithm which uses poly$((dH/\delta)^A)$ queries to find a $\delta$-optimal policy relative to any deterministic policy for which the value function is linearly realizable with a parameter from a fixed radius ball around zero. This is the first algorithm to give a polynomial query complexity guarantee using only linear-realizability of a single competing value function. Whether the computation cost is similarly bounded remains an interesting open question. The upper bound is complemented by a lower bound which proves that in the infinite-horizon episodic setting, planners that achieve constant suboptimality need exponentially many queries, either in the dimension or the number of actions.


翻译:我们考虑的是固定和顺向 Markov 决策进程(MDPs) 的本地规划问题, 假设最佳值功能在于通过基因模型可以访问的地貌图。 相对于先前假设所有政策的线性可实现性的工作, 我们考虑的是单线性可实现( 确定性) 政策的假设大为宽松。 最近一个较低约束确定, 当最佳政策的行动值函数线性地可实现时, 最优政策的行动值功能需要数量惊人的查询, 要么是H( MDP 的视野), 要么是d( 地貌图的尺寸) 。 最优化值的计算主要取决于具有指数性大动作设置。 相反, 在这项工作中, 我们确定 聚( H) 、 d) $ 和 单线性( 确定性) 单线性( 确定性) 政策。 我们提出Tensorplan 算法, 仅使用 聚度( dH/ dedelta) 或 d( 地标) 地标值的查询, 要从 $- dedeltaimalalalal 政策中找到一个直线性值的值, 直线性精度值, 的精确值是使用一个固定的精确度值的精确度值值值, 的精确度值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值, 的精确值值为一个在任何精确度值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值的值值值值值值的值的值值值值值值值值值值值值值的直值的直为在任何的直值的直值值的直值值值值值值值值值值值值值值值值值值值值值值值的直值的直值值值值值值值值值值值值的直值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值值的值的

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【经典书】操作系统导论,687页pdf
专知会员服务
171+阅读 · 2020年10月28日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
247+阅读 · 2020年5月18日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
0+阅读 · 2021年3月26日
Arxiv
7+阅读 · 2020年6月29日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【经典书】操作系统导论,687页pdf
专知会员服务
171+阅读 · 2020年10月28日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
247+阅读 · 2020年5月18日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员