长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

2022 年 9 月 30 日 专知

在本文中，我们概述了最近开发的用于随机控制和博弈问题的机器学习方法。主要关注的是深度学习方法，这些方法开启了解决此类问题的可能性，在结构非常复杂或维度非常高的情况下，用传统的数字方法是不可行的。其中许多新方法建立在最近针对偏微分方程或后向随机微分方程的突破性机器学习方法，或针对马尔科夫决策过程的无模型强化学习。这篇综述总结了人工智能和随机控制与博弈的交叉点上的最先进的工作。它还讨论了与实际应用的联系，并指出了未解决的挑战。

论文结构

在本调查的其余部分，我们将系统地回顾随机控制和博弈的机器学习方法和理论的最新发展，重点是总结在人工智能和随机分析的交叉点上的最先进的工作。我们还将确定尚未解决的挑战，并将其与实际应用联系起来。作为准备，在第2节，我们首先回顾了现代机器学习的两个主要工具，即神经网络和随机梯度下降。然后，我们在第3节中对机器学习算法和随机控制问题的理论进行了详细介绍和回顾。在第4节中，我们重点讨论随机微分博弈，包括（适度大的）N人博弈和平均场博弈。强化学习方法通常是无模型的，我们在第5节回顾了这些类型的随机控制和博弈的方法。我们在第6节中提出了结论性意见并讨论了未解决的挑战。在附录中，我们总结了本文中所有的首字母缩写词和经常使用的符号。

论文结论

本文旨在对随机最优控制和博弈的机器学习方法的现有文献进行系统回顾，特别关注新兴的深度学习领域。尽管最近的工作数量迅速增加，但许多问题仍有待进一步研究。我们希望这个调查能够引发人们的兴趣，吸引更多的研究人员来研究这个课题。除了本调查中已经回顾的材料，我们在下面概述了一些研究方向：

首先，这里介绍的大多数方法在理论方面缺乏令人满意的分析。深度学习的数学基础正引起人们越来越大的兴趣，最近的结果可以帮助分析本文所描述的方法。使用深度网络的主要动机是其应对维度诅咒的能力。然而，严格的措辞和证明这种说法只在特殊情况下进行。分析神经网络的泛化能力通常是通过将分析分成几种类型的错误来进行的，如近似、估计和优化错误。近似和估计误差的界限可以根据要近似的函数的规则性来获得，这在微分博弈的背景下可能很困难。此外，对优化误差的约束甚至更具挑战性，因为它不仅涉及博弈的定义，还涉及优化算法。由于这些困难，对于本调查中讨论的大多数方法来说，估计这些误差仍然是一个开放的问题。

从实践的角度来看，与基于神经网络的方法有关的一个重要问题是超参数的选择。最明显的一个是神经网络的结构。在许多情况下，前馈全连接架构提供了良好的性能（例如，对于深度BSDE、DBDP、Sig-DFP）。然而，在其他情况下（例如，DGM、RNN用于有延迟的问题，正如本调查所讨论的那样），ad hoc架构似乎有必要达到合宜的结果。在任何情况下，架构无疑对每一种深度学习方法的性能起着至关重要的作用，一般来说，精心设计是导致最先进的结果的原因。到目前为止，大多数用于微分博弈的深度学习方法都集中在提供概念证明上。鉴于这些基线，现在的问题是尝试更复杂的架构，以实现更好的数值性能。一旦架构被固定下来，就需要确定优化方法的超参数。例如，网络参数的初始化、学习率和小批量大小是确保快速收敛的重要因素。它们的作用对于训练深度和复杂的架构至关重要。然而，很难找到精确的规则来预先选择这些超参数。确定合适的数值范围的一个流行的方法是尝试几个数值，并使用分析公式或其他数字方法测量已知解决方案的问题的经验收敛速度。这项任务相当复杂，因为超参数的影响是相互依赖的。对于没有基准的问题，找到好的超参数值甚至更具挑战性。据我们所知，文献中还没有对如何选择超参数以及如何在不知道基准解决方案的情况下衡量算法的性能提供详细的理解。为了简洁起见，我们在本调查中没有讨论这方面的问题，但寻找有效的启发式方法无疑是一个有趣的方向。

关于与平均场博弈论（MFG）有关的具体问题，到目前为止，一个很少受到关注的方向是，即使存在影响整个种群的共同噪声，也能发挥作用的数值方法。数值上出现的困难类型与从理论上解决这种MFG的困难有关。我们已经暴露了Sig-DFP方法来解决有共同噪声的MFG，重点是通过矩的平均场相互作用。普通噪声在应用中出现，例如，在宏观经济学中以总冲击的形式出现。因此，值得进一步开发机器学习算法来处理具有共同噪声和一般相互作用的MFG。到目前为止，我们缺乏有效的方法来参数化、表示和离散化定义在连续状态空间上的概率计量。

与本调查中提出的方法的具体应用有关的另一个方面涉及到训练深度神经网络所需的资源。对于基于模型的方法，甚至对于无模型的强化学习方法，复杂的模型通常需要大量的训练事件，这导致了两个挑战。首先，随着模型复杂性的增加，学习解决方案所需的大量计算成本变得令人望而却步；其次，对于现实世界的应用，蒙特卡洛模拟将被真实数据所取代，但我们的数据点通常比本调查中描述的大多数深度学习方法所使用的样本数量少得多。因此，设计更具样本效率的方法（如深度RL方法）并建立对其样本复杂性的清晰估计将是非常有趣的。

最后但并非最不重要的是，就我们所知，本调查报告中提出的方法仅被应用于相对简单的模型，以达到学术研究的目的。但发展机器学习方法的一个重要动机是，它们将使我们能够有效地解决更现实的最优控制和博弈。我们希望这项调查能够有助于促进理论研究和应用研究界之间的互动，并导致在现实世界问题中的具体应用。