在机器学习领域,开发在世界中智能行为的代理仍是一个开放性挑战。对这样的代理的期望包括高效的探索、最大化长期效用以及能够有效利用以往数据解决新任务的能力。强化学习(RL)是一种基于通过试错直接与环境互动来学习的方法,并为我们训练和部署此类代理提供了途径。此外,将RL与强大的神经网络功能逼近器结合使用——一个被称为“深度RL”的子领域——已显示出实现这一目标的证据。例如,深度RL已产生了能够以超人水平玩围棋的代理、提高微芯片设计的效率,以及学习控制核聚变反应的复杂新策略的代理。部署深度RL的一个主要问题是样本效率低。具体来说,虽然可以使用深度RL训练有效的代理,但主要成功案例大多数是在我们可以通过使用模拟器获得大量在线互动的环境中实现的。然而,在许多现实世界的问题中,我们面临的情况是样本成本高昂。正如所暗示的,解决这个问题的一种方式是通过获取一些以往的数据,通常称为“离线数据”,这可以加速我们学习这些代理的速度,例如利用探索性数据防止重复部署,或使用人类专家数据快速引导代理朝向有前途的行为等。然而,将这些数据融入现有的深度RL算法的最佳方式并不直观;简单地使用RL算法在这些离线数据上进行预训练,一种称为“离线RL”的范式作为后续学习的起点,往往是不利的。此外,如何明确地在线派生出由这种离线预训练积极影响的有用行为尚不清楚。鉴于这些因素,本文提出了一种三管齐下的策略来提高深度RL中的样本效率。首先,我们研究了在离线数据上进行有效的预训练。然后,我们解决在线问题,探讨在纯在线操作时对环境进行高效适应。最后,我们得出结论,使用离线数据在在线行动时明确增强策略。