【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

与经典的监督学习不同，强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现，通过与环境的积极互动来收集有用的反馈，以提高其序列决策能力。RL代理还将干预环境: 代理做出决策，进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督，RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al.， 2015])，我们注意到它们大多依赖于随机探索策略，如“贪婪”。同样的，策略梯度法如REINFORCE [Williams, 1992]，通过向动作空间注入随机性进行探索，希望随机性能导致良好的动作序列，从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如，[Azar等人，2017])，然而，这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之，如果没有进一步的假设，无论在实践上还是在理论上，RL都是困难的。

在本文中，我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范，模仿学习极大地简化了探索的任务。在本论文中，我们考虑了两种设置:一种是交互式模仿学习设置，即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置，在这种设置中，我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家，以减少样本的复杂性相比，纯RL方法。第二个贡献来自于无模型的强化学习。具体来说，我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估，无后悔在线学习是一个活跃的研究领域，具有良好的理论基础。这样的约减创造了一个新的算法族，可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上，对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后，我们提供了基于PAC模型的RL算法，可以同时实现对许多有趣的MDPs的采样效率，如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起，我们还提供了一个更实用的基于模型的RL框架，称为双重策略迭代(DPI)。此外，我们给出了一个通用的收敛分析，将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al.， 2017, Silver et al.， 2017]，并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。