Some of the most powerful reinforcement learning frameworks use planning for action selection. Interestingly, their planning horizon is either fixed or determined arbitrarily by the state visitation history. Here, we expand beyond the naive fixed horizon and propose a theoretically justified strategy for adaptive selection of the planning horizon as a function of the state-dependent value estimate. We propose two variants for lookahead selection and analyze the trade-off between iteration count and computational complexity per iteration. We then devise a corresponding deep Q-network algorithm with an adaptive tree search horizon. We separate the value estimation per depth to compensate for the off-policy discrepancy between depths. Lastly, we demonstrate the efficacy of our adaptive lookahead method in a maze environment and Atari.
翻译:一些最强大的强化学习框架使用规划来选择行动。 有趣的是, 它们的规划视野不是固定的, 就是由国家访问历史任意决定的。 在这里, 我们扩展到天真固定的视野之外, 并提出一个理论上合理的战略, 以适应性选择规划视野, 作为国家依赖值估算的函数 。 我们提出两个选项, 用于视觉选择, 分析迭代计数与每迭代的计算复杂性之间的权衡 。 然后我们设计一个相应的深Q- 网络算法, 配有适应性树搜索视野 。 我们分离每深度的数值估计, 以弥补不同深度之间的脱政策差异 。 最后, 我们展示了我们在迷宫环境中的适应性外观方法 和 Atari 的功效 。