与经典的监督学习不同,强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现,通过与环境的积极互动来收集有用的反馈,以提高其序列决策能力。RL代理还将干预环境: 代理做出决策,进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督,RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al., 2015]),我们注意到它们大多依赖于随机探索策略,如“贪婪”。同样的,策略梯度法如REINFORCE [Williams, 1992],通过向动作空间注入随机性进行探索,希望随机性能导致良好的动作序列,从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之,如果没有进一步的假设,无论在实践上还是在理论上,RL都是困难的。

在本文中,我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范,模仿学习极大地简化了探索的任务。在本论文中,我们考虑了两种设置:一种是交互式模仿学习设置,即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置,在这种设置中,我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家,以减少样本的复杂性相比,纯RL方法。第二个贡献来自于无模型的强化学习。具体来说,我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估,无后悔在线学习是一个活跃的研究领域,具有良好的理论基础。这样的约减创造了一个新的算法族,可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上,对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后,我们提供了基于PAC模型的RL算法,可以同时实现对许多有趣的MDPs的采样效率,如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起,我们还提供了一个更实用的基于模型的RL框架,称为双重策略迭代(DPI)。此外,我们给出了一个通用的收敛分析,将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al., 2017, Silver et al., 2017],并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。

https://www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

成为VIP会员查看完整内容
91

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
45+阅读 · 2020年10月26日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
AlphaGo之父David Silver最新演讲,传授强化学习的十大原则
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
Arxiv
6+阅读 · 2019年7月29日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
45+阅读 · 2020年10月26日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
微信扫码咨询专知VIP会员