We propose the Bayes-UCBVI algorithm for reinforcement learning in tabular, stage-dependent, episodic Markov decision process: a natural extension of the Bayes-UCB algorithm by Kaufmann et al. (2012) for multi-armed bandits. Our method uses the quantile of a Q-value function posterior as upper confidence bound on the optimal Q-value function. For Bayes-UCBVI, we prove a regret bound of order $\widetilde{O}(\sqrt{H^3SAT})$ where $H$ is the length of one episode, $S$ is the number of states, $A$ the number of actions, $T$ the number of episodes, that matches the lower-bound of $\Omega(\sqrt{H^3SAT})$ up to poly-$\log$ terms in $H,S,A,T$ for a large enough $T$. To the best of our knowledge, this is the first algorithm that obtains an optimal dependence on the horizon $H$ (and $S$) without the need for an involved Bernstein-like bonus or noise. Crucial to our analysis is a new fine-grained anti-concentration bound for a weighted Dirichlet sum that can be of independent interest. We then explain how Bayes-UCBVI can be easily extended beyond the tabular setting, exhibiting a strong link between our algorithm and Bayesian bootstrap (Rubin, 1981).
翻译:我们建议采用Bayes-UCBVI算法,用表格、阶段依赖、分数Markov 来强化学习:Kaufmann等人(2012年)将Bayes-UCB算法自然延伸至多武装匪徒(2012年),我们的方法是将Q值函数后继数的四分位数作为受Q值最佳功能约束的上限。对于Bayes-UCBVI,我们证明以美元表示遗憾的是,以美元(sqrt{H3SAT})为单位,以美元为单位进行强化学习:美元是州数,以美元为单位,以美元计算Bayes-UB算法算法的自然值,以美元为单位,以美元为单位,用美元为单位,用美元为单位,用美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元,以美元为单位,以美元,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元为单位,以美元,以美元,以美元,以美元,以美元,以美元,以美元为单位,以四为单位,以美元为单位,以美元为单位,以四为单位,以美元为单位,以美元为单位,为单位,以美元为单位,以四为单位,为单位,以美元,以四为单位,以美元为单位,以美元,以单位,以单位,以单位,以单位,以美元为单位,以美元为单位,以美元为单位,为单位,以美元为单位,以美元,以美元,以美元,以美元,以