推荐！2022综述论文《强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，

1 引言

与基于模型的控制和优化方法相比，强化学习（RL）提供了一个数据驱动的、基于学习的框架来制定和解决连续的决策问题。由于航空业的数据可用性和计算能力的大幅提高，RL框架变得很有前途。许多基于航空的应用可以被制定或处理为顺序决策问题。其中一些是离线规划问题，而另一些则需要以在线方式解决，并且是安全关键问题。在这篇调查报告中，我们首先描述了标准的RL公式和解决方案。然后，我们调查了现有的基于RL的航空应用的情况。最后，我们对本文进行了总结，确定了技术上的差距，并提出了航空领域RL研究的未来方向。

在本节的其余部分，我们将全面介绍RL方法。首先，我们简要地描述了RL问题的表述和一些关键概念。之后，将介绍两类经典的无模型RL算法：基于价值和基于政策的倾斜。然后，我们将介绍更先进的技术以及现代行为者评论方法和多智能体强化学习（MARL）。RL方法的整体结构如图1所示。

图1:RL方法结构。

2 强化学习在航空中的应用

由于航空数据的可得性和计算能力的大幅提高，现在航空领域的许多挑战性问题都可以用数据驱动和基于机器学习的方法来解决。这些问题不限于以下例子：空中交通管理[32]、飞机排序[33]、空中交通流提取[34]、滑行时间预测[35]、航班延误预测[36][37]、航迹预测[38]和飞机性能参数预测[39]。

RL方法作为机器学习的一个领域，已经成为研究航空问题的方法。图3说明了航空领域RL的分类。在下面的章节中，我们将尝试总结RL在不同应用中的用法。据作者所知，本调查报告是第一份调查航空领域RL方法的研究报告。

图3 航空RL分类布局。

A 防撞和间距保证

空中交通管制（ATC）在空中交通管理（ATM）系统中起着至关重要的作用，因为它负责维护飞行安全和效率。避免碰撞是防止空中碰撞的最后一层防御。一方面，空中交通管制员必须在任何时候都保持任何两架飞机之间的安全分离距离。这个功能被称为冲突解决或间距保证。另一方面，早期改编的空中防撞系统是交通警报和防撞系统（TCAS）[51]和最近的下一代机载防撞系统（ACAS-X）[52], [53]。后者建立在TCAS的基础上，引入了部分可观察的马尔可夫决策过程（POMDP）来表述问题。它通过评估最接近的时间向飞行员提供语音和视觉警告，以确定是否有可能发生碰撞。最近在基于RL的防撞和间距保证方面进行了许多研究，表I列出了其中的一部分。

表I：从有关避免碰撞的RL的文献中选出。状态/行动空间（S/A空间）可以是连续的（C），离散的（D），或混合的（M）。

B 空中交通流量管理

交通管理是一个涵盖了任何直接影响或用于决定空中交通运动的系统的术语。这些系统的首要目标是减少延误，同时保持空域的运行安全。一般来说，空中交通流量和容量管理是共同空中交通服务（ATS）的一部分，并直接或通过ATC与飞行员对接。最后，所有这些设计的系统可以通过两个分类来考虑；为无人交通管理（UTM）和无人机系统操作设计的系统，以及为更多的常规操作设计的系统。

表II: RL在航空交通流管理中的文献选取

C 航空公司收益管理

在1970年代，对机票定价和网络调度的控制是有限的。如果一家航空公司想提高票价，需要得到联邦机构--民用航空委员会（CAB）的许可。当时的定价监管总是导致票价上涨。1979年解除了对航空公司的管制，允许公司自由安排航班和定价。因此，航空公司收入管理（ARM）作为一种商业惯例出现了，在有易损库存的情况下制定价格。ARM是航空公司通过优化票价和产品供应来实现收入最大化的策略。经典的ARM问题可以分为两种类型，基于数量的收入管理和基于价格的收入管理（RM）[94]。

基于数量的收入管理是在一个预先定义的n级票价结构上进行的，并决定每个票价等级有多少张票被保护。同时，它侧重于单程和网络航班段的容量控制。作为基于数量的RM的代表，预期边际座位收入（EMSR）模型[95]在现代航空业被广泛使用。基于价格的RM更注重于动态定价情况。

表III:RL在航空公司收益管理中的文献选取

D 飞机飞行与姿态控制

由于系统的非线性、不确定性和环境中固有的作用于系统的噪声，飞机的姿态控制可能是一个挑战。最近，研究人员旨在开发基于RL算法的先进控制器。表四列出了姿态控制应用中的一些RL方法。

表IV:态度控制中RL的文献选择。

这些提议的控制器已被用于目标跟踪[96]，[97]，单/多智能体避障[97]，[98]，基于视觉的着陆[99]，稳定[100]-[103]，视觉伺服[104]，和平旋恢复[105]。

E 容错控制器

故障是指一个系统的属性或参数发生变化，导致系统的行为与设计不同。换句话说，故障是一种使系统无法运行的状况。容错控制器（FTC）是一种控制策略，其目的是改善因故障而运行在性能下降的系统的性能[116]。根据用于开发控制器的方法，FTC被描述为基于模型或数据驱动的。基于模型的技术需要了解系统的模型和参数来设计一个容错控制器。相反，数据驱动的方法直接从系统数据中学习FTC。基于模型的FTC方法的基本问题是，它的有效性取决于系统模型的正确性，而当系统参数因故障而变化时，这种正确性很难建立。此外，复杂的系统需要复杂的控制器，这反过来影响了控制器的稳健性。另一方面，数据驱动技术利用数据来设计FTC，而不知道系统的动态。因此，数据驱动的方法，特别是基于RL的技术，最近得到了很多关注。

表V:容错控制器RL的文献选择。

F 飞行规划

飞行和轨迹规划是一个众所周知的航空问题，也是至关重要的。虽然空域用户希望得到最优化的轨迹，使成本函数最小化，但许多约束条件，如地面障碍物、容量限制或环境威胁，使这个问题难以解决。提出了几种技术，包括改道或地面延迟，以缓解大多数情况下的交通拥堵。ATM领域基本上是基于时间性的操作，用容量供求模型来管理空中交通流。这种操作会导致容量不平衡，当容量（定义为某一时期内某一航段接受的飞机数量）被超过时，会在航段中产生热点。飞机轨迹或飞行的规划可以在ATM领域定义的几个阶段完成；战略阶段包括一年和D-7之间执行的飞行规划，预战术阶段发生在D-7和D-1之间，最后，战术阶段发生在D日。RL规划器显示是解决危险环境下飞行前规划问题的一个有前途的工具[124]。

表VI:飞行规划中RL的文献选择。

无人机在执行从地形测绘到监视和军事任务方面的多功能性使得这个问题成为飞机运行的基本组成部分。无人机的许多既定任务之一是飞越地面目标。提出了用于军事用途的POMDP理论，并使用名义信念状态优化（NBO）来寻找考虑威胁、风效应或其他智能体的最佳轨迹[117]。此外，还提出了一种RL方法，利用无人机环境的几何信息，在实时规划中产生更平滑、更可行的轨迹[118]。在[119]中比较了决斗双深Q网络（D3QN）、DDQN和DQN方法，以解决智能体在面临环境威胁的动态环境中的路径规划问题。

G 维护

维护调度是计划何时以及何种类型的维修检查应该在飞机上进行的过程。航空公司的维修任务通常被分为四个字母的检查（A、B、C和D）。这些组的维护检查的详细程度是不同的。例如，A-和B-检查被认为是轻度维护，C-和D-检查为重度维护和更详细的检查。通常情况下，天气状况和飞行中断会导致计划的偏离。这些不确定因素使飞机维修调度成为一项具有挑战性的任务。

为飞机维修检查开发了一种前瞻近似的动态编程方法[129]。它的计划最大限度地减少了维修检查之间的浪费的利用间隔，同时减少了对额外维修时段的需求。该方法通过对A320系列机队的维修数据的两个案例研究进行了测试。所开发的方法显示了计划维修时间的显著变化；它在四年内减少了1.9%的A检查次数，9.8%的C检查次数，以及78.3%的额外机位数量。

[130]中提出了一种基于RL的方法来解决飞机的长期维护优化问题。所提出的方法使用有关飞机未来任务、维修成本、预知和健康管理等信息，以提供实时、连续的维修决策。在几个模拟的维修场景中，RL驱动的方法在根据不同的数据调整其决策原则方面优于现有的三种常用策略。[131]提出了在维护计划中整合人机协作的RL模型以及基于状态的维护指标的可视化。同时还提出了在突发事件发生时的最佳维护决策。

H 强化学习的安全性和认证

在航空系统等安全关键应用中，安全是最重要的。最近在RL方面取得的可喜成果鼓励研究人员将此类技术应用于许多现实世界的应用。然而，基于学习的方法的认证，包括安全关键应用中的RL，仍然是一个开放的研究问题[132], [133]。最近的调查对安全关键应用中的安全RL的努力进行了全面的概述[134]。虽然人们对安全RL有很多研究兴趣，特别是在自动驾驶领域[135]-[137]，但在航空研究领域，安全RL问题仍然没有得到充分的探讨。安全RL在航空系统中的应用已经从不同角度进行了研究。例如，最近，有人提出了一种用于自主机载防撞系统的安全RL方法[62]。从冲突解决的角度来看，在分层空域的垂直机动过程中，使用了软行为者-批评模型[138]。在一个类似的研究思路中，一个安全的深度MARL框架可以识别和解决高密度下飞机之间的冲突[42]。

【完整版请上专知网查阅】

专知便捷查看