**与经典的监督学习不同,强化学习(Reinforcement Learning, RL)从根本上讲是交互式的:一个自主智能体必须学会如何在未知、不确定甚至可能是对抗的环境中表现,通过与环境的主动交互来收集有用的反馈以提高其序列决策能力。**RL智能体还将干预环境:智能体做出的决策反过来影响环境的进一步演化。由于它的通用性——大多数机器学习问题都可以视为特例——RL是困难的。由于没有直接监督,强化学习的一个核心挑战是如何探索未知环境并有效收集有用的反馈。在最近的强化学习成功故事中(例如,在电子游戏上的超人表现[Mnih等人,2015]),我们注意到它们大多数依赖于随机探索策略,如e-greedy。类似地,策略梯度方法,如REINFORCE [Williams, 1992],通过将随机性注入行动空间来进行探索,并希望这种随机性可以产生一个获得高总回报的良好行动序列。理论强化学习文献已经开发了更复杂的算法来进行有效探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须相对于底层系统的关键参数(如状态和动作空间的维度)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法直接应用于大规模应用。总之,如果没有任何进一步的假设,RL在实践和理论上都是困难的。
**本文试图通过引入额外的假设和信息源来获得对强化学习问题的支持。本文的第一个贡献来自于通过模仿学习提高强化学习的样本复杂度。**通过利用专家的演示,模仿学习大大简化了探索的任务。本文考虑两个设置:交互式模仿学习设置,其中专家在训练期间可以进行查询;以及仅从观察中进行模仿学习的设置,其中只有一组演示,由对专家状态的观察组成(没有记录专家的行动)。本文从理论和实践两方面研究了与纯强化学习方法相比,如何模仿专家来降低样本复杂度。第二个贡献来自无模型强化学习。具体而言,我们通过构建一个从策略评估到无悔在线学习的总体约简来研究策略评估,无悔在线学习是一个活跃的、具有良好理论基础的研究领域。这种约简创建了一个新的算法族,用于在对生成过程的非常弱的假设下可证明正确的策略评估。然后对两种无模型探索策略:行动空间探索和参数空间探索进行了深入的理论研究和实证研究。本文工作的第三个贡献来自基于模型的强化学习。本文在基于模型的强化学习和一般无模型强化学习方法之间首次实现了样本复杂度的指数级分离。本文提供了基于PAC模型的强化学习算法,可以同时对许多感兴趣的mdp实现样本效率,如表格mdp、可分解mdp、Lipschitz连续mdp、低秩mdp和线性二次控制。本文还提供了一个更实用的基于模型的强化学习框架,称为双策略迭代(DPI),通过将最优控制、模型学习和模仿学习集成在一起。此外,本文给出了广义收敛性分析,将现有的近似策略迭代理论扩展到DPI。DPI推广并为最近成功的实际强化学习算法(如ExIt和AlphaGo Zero)提供了第一个理论基础[Anthony等人,2017,Silver等人,2017],并提供了一种理论可靠和实际有效的方法来统一基于模型和无模型的强化学习方法。