Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/\epsilon^{3/2})$ episodes to find an $\epsilon$-approximate stationary point of the nonconcave performance function $J(\boldsymbol{\theta})$ (i.e., $\boldsymbol{\theta}$ such that $\|\nabla J(\boldsymbol{\theta})\|_2^2\leq\epsilon$). This sample complexity improves the existing result $O(1/\epsilon^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/\epsilon^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.
翻译:提高强化学习的抽样效率是一个长期存在的研究问题。 在这项工作中, 我们的目标是降低现有政策梯度方法的样本复杂性。 我们提议了一个叫SRVR-PG的新政策梯度算法, 代号为SRVR- PG, 只需要美元( 1/\\ epsilon\\ 3/2 } 美元), 以寻找一个非凝固性能功能 $J(\ boldsymbol_theta} $ ( $, 即 $\ boldsymbol_theta} 美元) 的近似近似固定点。 此外, 我们还提出一个 SRVR- PG 参数勘探的变式, 以探讨我们从先前概率分布开始的政策参数 =2\\\\\\ leq\ epsilon$ $ 。 这种采样复杂度将改善现有的结果 $O (1/\\\\ \ \\ \\\ 5/3} 美元, 用于随机性差差差差差差差差差差差差差差差差变算算算算算算算算算算法 以 $ $ $ $ ( $ $ $1 1/ = = 1/6} 。 此外, 我们还提出一个SRVVR- PGPGPGPGPG 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校