强化学习和最优控制是解决动态系统决策问题的两种方法,分别从数据驱动和模型驱动的角度出发。现代应用这些方法的场景往往涉及高维状态和动作空间,因此开发高效的高维算法至关重要。本篇论文旨在从两个角度来应对这一挑战。在第一部分中,我们分析了强化学习在一般再生核希尔伯特空间(RKHS)中的样本复杂性。我们关注一类马尔可夫决策过程,其中奖励函数位于RKHS的单位球内,而转移概率位于任意集合中。我们引入了一个称为分布不匹配下的扰动复杂性的量,用于描述在给定尺度下RKHS中的扰动所导致的可接受状态-动作分布空间的复杂性。我们证明了这个量不仅为所有可能算法的误差提供了下界,还为解决强化学习问题的两种特定算法提供了上界。因此,扰动复杂性随着给定尺度的衰减,衡量了强化学习问题的难度。我们进一步提供了一些具体例子,并讨论了这些例子中扰动复杂性是否迅速衰减。在第二部分中,我们介绍了一种高效学习高维闭环最优控制的算法。该方法是从最近提出的基于监督学习的方法进行改进的,该方法利用强大的开环最优控制求解器生成训练数据,并使用神经网络作为高效的高维函数逼近器来拟合闭环最优控制。这种方法成功地处理了某些高维最优控制问题,但在更具挑战性的问题上表现仍然不佳。其中一个关键原因是由受控动力学引起的所谓分布不匹配现象。在本篇论文中,我们对这一现象进行了研究,并提出了初始值问题增强采样方法来缓解这个问题。我们进一步证明了所提出的采样策略在经过测试的控制问题上显著提高了性能,包括经典的线性二次调节器、四旋翼飞行器的最优着陆问题以及7自由度机械臂的最优达到问题。强化学习和最优控制是两个不同的领域,它们都专注于动态系统的最优决策。强化学习是数据驱动的,旨在在未知环境中学习最优策略,以最大化累积奖励。最优控制是模型驱动的,旨在基于动态系统的数学模型找到给定系统的最优控制策略。在强化学习中,智能体与环境进行交互,通过奖励形式的反馈来改进策略。它不需要对系统进行显式建模,直接从数据中进行学习。强化学习算法已成功应用于各种领域,如视频游戏[60]、围棋[80]、机器人技术[45]等。另一方面,最优控制使用模型来预测动态系统在不同控制策略下的行为,并通过优化预定义的成本函数来找到最优策略。这种方法可以对系统进行精确控制,并考虑系统的约束条件。它在机器人技术[52]、航空航天[55]等领域有广泛的应用。现代强化学习和最优控制的应用往往涉及高维状态空间和动作空间,这使得问题的解决变得非常困难。自从Bellman以来,人们就意识到解决高维闭环最优控制问题是一项艰巨的任务[7]。广泛使用的术语“维度诅咒”最初是为了强调这些困难[7]。因此,从业者通常不得不采用不受控制的近似方法,比如假设值函数或策略函数具有特定的低维结构,以满足实际需求[72]。然而,机器学习的出现带来了新的希望,因为深度神经网络能够高效地逼近高维函数。这使得结合深度神经网络的强化学习和最优控制算法能够解决许多高维问题,包括围棋[80]和50维随机控制问题[35]。在这篇论文中,我们将讨论高维强化学习和最优控制的两个重要主题。在第一部分中,我们将分析在一般再生核希尔伯特空间(RKHS)中强化学习的样本复杂性。RKHS是在核方法研究中引入的数学概念,与神经网络密切相关,这在之前的神经切线核和Barron空间的研究中得到了证实。因此,理解在RKHS中强化学习的样本复杂性是理解高维强化学习问题的关键一步。我们考虑一类马尔可夫决策过程M,其中奖励函数位于RKHS的单位球内,转移概率位于给定的任意集合中。为了描述对RKHS中尺度为ϵ的扰动所产生的可接受状态-动作分布空间的复杂性,我们定义了一个称为分布不匹配下的扰动复杂性∆M(ϵ)的量。我们展示了∆M(ϵ)既给出了所有可能算法的误差下界,也给出了两种具体算法——拟合奖励算法和拟合Q迭代算法——对于强化学习问题的上界。因此,∆M(ϵ)随着ϵ的衰减衡量了在M上强化学习问题的难度。我们进一步证明了扰动复杂性与常用于研究RKHS中强化学习样本复杂性的集中系数和特征值衰减有关。作为副产品,我们还表明当奖励函数位于高维RKHS中时,即使转移概率是已知的且动作空间是有限的,强化学习问题仍然可能受到维度诅咒的影响。这一部分主要基于我的先前工作[53]。
在第二部分中,我们提出了一种用于高维系统闭环最优控制学习的高效算法。该方法基于一种监督学习方法,利用开环最优控制求解器生成训练数据,并使用神经网络作为高维函数逼近器来拟合闭环最优控制。虽然这种方法成功地处理了某些高维最优控制问题,但在更具挑战性的问题上表现较差,主要是由于受控动态引起的分布不匹配现象。该现象指的是训练数据的状态分布与由神经网络控制器生成的状态分布之间的差异通常会随着时间的推移而增加,导致训练数据不能很好地代表使用训练后的神经网络控制器时遇到的状态。 为了解决这个问题,我们提出了初始值问题增强采样方法。在这种方法中,我们通过解初始值问题迭代地重新评估神经网络控制器到达的状态,并通过解以这些状态为起点的开环控制问题来重新计算新的训练数据。我们从理论上证明了这种采样策略在经典的线性二次调节器上的改进效果与总时间持续时间成比例。我们进一步通过数值实验证明了所提出的采样策略在经过测试的控制问题上显著提高了性能,包括四旋翼飞行器的最优着陆问题和7自由度机械臂的最优达到问题。这一部分主要基于我的先前工作[92]。