Reinforcement learning (RL) in episodic, factored Markov decision processes (FMDPs) is studied. We propose an algorithm called FMDP-BF, which leverages the factorization structure of FMDP. The regret of FMDP-BF is shown to be exponentially smaller than that of optimal algorithms designed for non-factored MDPs, and improves on the best previous result for FMDPs~\citep{osband2014near} by a factored of $\sqrt{H|\mathcal{S}_i|}$, where $|\mathcal{S}_i|$ is the cardinality of the factored state subspace and $H$ is the planning horizon. To show the optimality of our bounds, we also provide a lower bound for FMDP, which indicates that our algorithm is near-optimal w.r.t. timestep $T$, horizon $H$ and factored state-action subspace cardinality. Finally, as an application, we study a new formulation of constrained RL, known as RL with knapsack constraints (RLwK), and provides the first sample-efficient algorithm based on FMDP-BF.


翻译:正在研究一个叫做FMDP-BF的算法,该算法利用FMDP-BF的保分结构。FMDP-BF的遗憾比为非保分的 MDP 设计的最佳算法的遗憾小得多,并且用一个因数($)来改进FMDPsçççciep{osband2014年ear}FMDPs/cip{osband2014年]的最佳前结果,该乘数为$(sqrt{H ⁇ mathcal{Sçácal{S ⁇ i ⁇ $),其中,美元是保分的州子空间的基点,而$($)是保分的基点空间,而$($)则是规划的基点。为了显示我们界限的最佳性,我们还为FMDP提供了较低的约束,这表明我们的算法几乎是最佳的 w.r.t.t.时间步($T)、地平线($H)和保分的州-行动次基点基点(PMFMF-DP)的基点。最后,我们研究一种受限制的受限的受限RL-MFMFML制新配方。

0
下载
关闭预览

相关内容

【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
4+阅读 · 2018年12月3日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
8+阅读 · 2018年6月19日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
24+阅读 · 2021年1月25日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
4+阅读 · 2018年12月3日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
8+阅读 · 2018年6月19日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员