强化学习(RL)为基于学习的控制提供了一个形式化的框架。通过尝试学习能优化用户指定的奖励函数的行为策略,RL方法已经能够获得新颖的决策策略,即使在动态非常复杂,所有可能结果的空间巨大(例如,机器人操作、芯片地板规划)的情况下,这些策略也可以胜过最好的人类。但与标准机器学习(ML)在现实世界的应用相比,RL的适用性有限。为什么呢?RL的核心问题在于,它严重依赖于执行大量试错的主动数据收集来学习策略。不幸的是,在现实世界中,主动数据收集通常非常昂贵(例如,进行药物设计的实验室实验)和/或危险(例如,机器人在人们周围操作),且准确的模拟器很难构建。总的来说,这意味着,尽管RL具有广泛解锁现实世界决策问题中的ML的潜力,但我们无法通过当前的RL技术实现这一潜力。
为了实现RL的这种潜力,在这篇论文中,我们开发了一个旨在使用静态数据集经验学习策略的替代范式。这种“数据集驱动”的范式扩大了RL在存在历史数据集或可以通过特定领域策略收集的决策问题中的适用性。它还将现代有监督和无监督ML方法的可扩展性和可靠性带入了RL。话虽如此,实例化这一范式是具有挑战性的,因为它需要将从数据集中的静态学习与RL的传统主动性相协调,这导致了分布偏移、泛化和优化的挑战。在理论上和实证上理解这些挑战后,我们为应对这些挑战开发了算法思想,并讨论了几种扩展,将这些思想转化为实际方法,可以在大型和多样化的数据集上训练现代高容量神经网络函数逼近器。最后,我们展示了这些技术如何使我们能够为真实的机器人和视频游戏预训练通用策略,并实现快速高效的硬件加速器设计。