Offline reinforcement learning (RL) leverages previously collected data for policy optimization without any further active exploration. Despite the recent interest in this problem, its theoretical results in neural network function approximation setting remain limited. In this paper, we study the statistical theory of offline RL with deep ReLU network function approximation. In particular, we establish the sample complexity of $\tilde{\mathcal{O}}\left( \kappa^{1 + d/\alpha} \cdot \epsilon^{-2 - 2d/\alpha} \right)$ for offline RL with deep ReLU networks, where $\kappa$ is a measure of distributional shift, $d$ is the dimension of the state-action space, $\alpha$ is a (possibly fractional) smoothness parameter of the underlying Markov decision process (MDP), and $\epsilon$ is a user-specified error. Notably, our sample complexity holds under two novel considerations, namely the Besov dynamic closure and the correlated structure that arises from value regression for offline RL. While the Besov dynamic closure generalizes the dynamic conditions for offline RL in the prior works, the correlated structure renders the prior works of offline RL with general/neural network function approximation improper or inefficient. To the best of our knowledge, this is the first theoretical characterization of the sample complexity of offline RL with deep neural network function approximation under the general Besov regularity condition that goes beyond the traditional Reproducing Hilbert kernel spaces and Neural Tangent Kernels.
翻译:离线强化学习( RL) 利用先前收集的数据优化政策, 而不进一步积极探索 。 尽管最近对这一问题有兴趣, 但它在神经网络功能近距离设置方面的理论结果仍然有限 。 在本文中, 我们研究离线RL的统计理论, 使用深 ReLU 网络功能近距离。 特别是, 我们建立 $\ tilde\ mathcal{ O ⁇ left (\ kappa_ + d/ d/ alpha} 的样本复杂性( \ cd + d/ d/ alpha} ) 。 值得注意的是, 我们的样本复杂性存在两个新颖的因素, 即位于深线 ReLU 网络的离线性 RL 网络的动态关闭和从线外线性内线性内线内值回归的关联结构, $dappolax the expalalal rocilal commessional Propertyle roduction RL 。 在前动态网络的常规运行中, 向下, 向下流线常规运行, 向下, 直线 向下, 直线 直线 向轨道运行运行运行运行运行 向下, 向下, 向下, 向下, 向下, 直线路路路路路路路路路运行运行运行运行运行运行运行运行 向下运行运行运行运行运行运行 向, 向, 向下 向下运行 直线 直线 直线 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 向 运行 运行 运行 运行 运行 向 向 向 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 向 向 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行