强化学习(RL)是机器学习(ML)的一门学科,它涉及到在不同情况下学习做出一连串的决定来最大化一些分数,后来被描述为奖励。机器软件可以采用这种技术来寻找最佳策略,以解决任何可以被表述为RL问题的问题。一些有直接用途的例子包括医疗保健问题(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),复杂场景的一般视觉问题回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理问题(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能计算系统中的任务调度问题(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盘游戏(Tesauro,1995;Silver,Huang,Maddison,等,2016),视频游戏(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或机器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL问题考虑一个采取决策的智能体和智能体运行的环境。在每个时间段,智能体采取一个行动,并获得一个奖励和一个观察。作为一个说明性的例子,图1.1将智能体描述为一只狗,它必须完成一连串的行动,把飞盘还给它的主人,而主人扮演着环境的角色。狗观察它主人的动作,并受到玩耍的满足感和结束时得到奖励的激励。在这种情况下,RL算法使用一个试错学习过程来最大化决策智能体在先前未知环境中的总奖励。举个例子,在机器人学中,观察是摄像机图像或关节角度,行动是关节扭力,奖励包括导航到目标位置,成功到达目标位置并保持平衡。图1.1 - 智能体与环境的互动
1.2 深度学习表征
表征学习是学习从输入数据中转换或提取特征以解决一个任务的过程。机器学习主要关注的是从数据中的函数学习。深度学习关注的是将数据中的函数学习与表征学习相结合。深度学习与机器学习具有相同的实际目的,只是它得益于一个通常更具表现力的函数近似器(这一特征在之前的工作中已经用轨迹长度的概念进行了测量(Raghu, Poole, Kleinberg, et al., 2017)),即通过连续的梯度下降步骤训练的深度神经网络。深度神经网络是一种输入到目标的映射,由一连串简单的数据转换组成,称为投影层(简单的矩阵乘法)聚合在一起,并与非线性相结合。这样的深度学习模型通常涉及几十或有时几百个连续的表征层,这些表征层是通过接触训练数据学习的,其中计算阶段的长因果链改变了神经网络的总体激活。这种技术已经产生了一些显著的经验发现,特别是在语音识别(Dahl, Yu, Deng, et al., 2012)、图像识别(Krizhevsky, Sutskever, and Hinton, 2012)和自然语言处理(Vaswani, Shazeer, Parmar, et al., 2017)。
1.3 深度强化学习
在参数较少、缺乏构成性的简单ML模型可能会失败的情况下,深度学习可以成为涉及高维数据(如自然语言或图像和视频)的复杂任务的合适技术。深度强化学习(deep RL)是使用神经网络作为函数近似器的强化学习学科,适用于智能体的输入和输出(观察和行动)涉及高维数据的顺序决策问题。例如,Tesauro的TD-Gammon(Tesauro,1995)将RL算法与神经网络结合起来,学习玩双陆棋,这是一个有大约1020个状态的随机游戏,并发挥了人类顶级选手的水平。大约在同一时期,Rummery和Niranjan(1994)学习了一个带有函数近似的半梯度Sarsa,为Gullapalli(1990)的工作以及Lin和Tham的博士论文(Lin, 1992a; Tham, 1994)增加了内容,这些论文探索了各种RL算法与神经网络的结合。在Tesauro的开创性工作二十年后,深度RL作为一种有前途的方法出现,用于经验驱动的自主学习,因为它们有能力获得复杂的策略和处理高维复杂的感官输入(Jaderberg, Mnih, Czarnecki, et al., 2017)。这样的算法可以完全从图像像素中学习玩几个雅达利2600视频游戏,达到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是开发了一个蒙特卡洛树搜索(MCTS)规划系统,加上深度RL模块(Silver, Huang, Maddison, et al., 2016),打败了一个世界围棋冠军,或者也可以直接从现实世界的摄像机输入中学习机器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。在深度RL中,神经网络被用来近似实现从状态到选择每个可能行动的概率的映射的函数(称为策略),估计智能体处于给定状态的好坏的函数(称为价值函数),动力学模型或RL算法所需的其他函数。特别是,在异步优势actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引导目标(Sutton, 1988)在广泛的任务上使用梯度策略显示了强大的结果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)学习贴现收益的分类分布,而不是估计平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)细致地结合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改进,在数据效率和最终性能方面为Atari 2600基准提供了改进。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同种类的策略梯度方法,重点是高性能、低样品利用率和稳定性的改善。
1.4 选择学习的内容
图1.2 - 强化学习算法的分类法。通常,在强化学习中,智能体的行动是基于正在学习的最新版本的策略。在更新过程中,来自与环境互动的数据被用来推导出基于样本的目标函数,其中策略和值近似器通过梯度下降进行更新。在深度RL中,近似器是深度神经网络。这些算法的成功取决于在互动阶段发现的轨迹:如果数据包括具有高奖励的轨迹,那么这些轨迹就会被更新所加强,在新更新的策略下变得更有可能。因此,与环境的互动和近似器的更新是密切相关且高度依赖的。因此,在设计新的深度RL算法时,一个核心问题是什么应该被近似,以及如何被近似。图1.2显示了RL算法的高级分类法。在顶层,我们有动态规划(DP)算法,可以用来计算给定环境的完美模型的最优策略。事实上,DP算法(例如策略迭代和价值迭代)是典型的基于模型的算法:这些算法都使用模型对下一个状态和奖励的预测或分布,以计算出最佳行动。具体来说,在动态规划中,模型必须提供状态转换概率和任何状态-行动对的预期奖励。请注意,与大多数其他基于模型的RL算法相反,该模型很少是一个学习模型。相反,无模型RL算法并不估计底层系统的动态,而是旨在直接优化一个策略。基于策略的方法明确地建立和学习一个策略,将状态映射到选择可能行动的概率上,并在学习期间将策略的近似值存储在内存中,以供以后使用。基于价值的方法不存储明确的策略,而是学习一个价值函数。策略是隐性的,通过选择具有最佳价值的行动从价值函数中得出。至于行为批判方法,它们是一个框架的一部分,结合了基于价值和恶略的方法的元素。选择使用哪种方法主要取决于问题的规格(如系统动力学的复杂性)、要解决的背景(如策略的最优性)和实验规格(如时间或资源预算)。例如,基于模型的RL方法通常会加快学习速度,其代价是缺乏对动态复杂问题的可扩展性。他们通常学习一个系统动力学模型,即控制器,并将其用于规划。这样的方法可以在低维连续控制问题中以高样本效率学习成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。这种方法的另一个应用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通过使用蒙特卡洛树搜索(MCTS)规划模块,有效地解决了计算机围棋的问题,以利用游戏动态的知识。在这篇论文中,我们将研究重点放在无模型方法的数据效率上,这些方法在行为批评框架中使用基于梯度的方法直接学习随机策略函数。随机策略的一个优点是,当在参数空间中移动时,它们允许策略的微小变化,而在确定性策略的情况下,类似的转变有可能会极大地改变策略。因此,参数和策略之间的耦合似乎在一般情况下更容易控制,特别是对于离散的行动空间。随机策略的另一个优点是其固有的探索性质,即通过对高斯噪声进行抽样来增加确定性的基本策略。最后,本论文主要关注的问题(连续控制任务、程序生成的任务和具有安全约束的连续控制任务)的复杂动态特征也鼓励我们采用无模型设置,不需要对环境、规格或领域知识进行假设。