Q-learning (QL), a common reinforcement learning algorithm, suffers from over-estimation bias due to the maximization term in the optimal Bellman operator. This bias may lead to sub-optimal behavior. Double-Q-learning tackles this issue by utilizing two estimators, yet results in an under-estimation bias. Similar to over-estimation in Q-learning, in certain scenarios, the under-estimation bias may degrade performance. In this work, we introduce a new bias-reduced algorithm called Ensemble Bootstrapped Q-Learning (EBQL), a natural extension of Double-Q-learning to ensembles. We analyze our method both theoretically and empirically. Theoretically, we prove that EBQL-like updates yield lower MSE when estimating the maximal mean of a set of independent random variables. Empirically, we show that there exist domains where both over and under-estimation result in sub-optimal performance. Finally, We demonstrate the superior performance of a deep RL variant of EBQL over other deep QL algorithms for a suite of ATARI games.
翻译:Q- 学习( QL) 是一种常见的强化学习算法, 它由于最佳贝尔曼操作员的最大化术语而存在高估偏差。 这种偏差可能导致亚最佳行为。 双Q- 学习通过使用两个估计器来解决这个问题, 却导致低估偏差。 类似于Q- 学习中的高估, 在某些情景中, 低估偏差可能会降低性能 。 在这项工作中, 我们引入了一种新的偏差减算法, 名为 Ensemble Boutstrapped Q- Learning( EBQL), 这是双Q 学习自然扩展至组合的延伸。 我们从理论上和实验上分析了我们的方法。 从理论上说, 我们证明, 类似 EBQL 的更新在估算一组独立随机变量的最大化时, 产生较低的 MSE 。 我们的假设是, 我们显示有些领域在亚最佳性表现。 最后, 我们展示了 EBQL 的深 RL 变量优于其他深QL QI 游戏的套A 。