1 引言

与基于模型的控制和优化方法相比,强化学习(RL)提供了一个数据驱动的、基于学习的框架来制定和解决连续的决策问题。由于航空业的数据可用性和计算能力的大幅提高,RL框架变得很有前途。许多基于航空的应用可以被制定或处理为顺序决策问题。其中一些是离线规划问题,而另一些则需要以在线方式解决,并且是安全关键问题。在这篇调查报告中,我们首先描述了标准的RL公式和解决方案。然后,我们调查了现有的基于RL的航空应用的情况。最后,我们对本文进行了总结,确定了技术上的差距,并提出了航空领域RL研究的未来方向。

在本节的其余部分,我们将全面介绍RL方法。首先,我们简要地描述了RL问题的表述和一些关键概念。之后,将介绍两类经典的无模型RL算法:基于价值和基于政策的倾斜。然后,我们将介绍更先进的技术以及现代行为者评论方法和多智能体强化学习(MARL)。RL方法的整体结构如图1所示。

图1:RL方法结构。

2 强化学习在航空中的应用

由于航空数据的可得性和计算能力的大幅提高,现在航空领域的许多挑战性问题都可以用数据驱动和基于机器学习的方法来解决。这些问题不限于以下例子:空中交通管理[32]、飞机排序[33]、空中交通流提取[34]、滑行时间预测[35]、航班延误预测[36][37]、航迹预测[38]和飞机性能参数预测[39]。

RL方法作为机器学习的一个领域,已经成为研究航空问题的方法。图3说明了航空领域RL的分类。在下面的章节中,我们将尝试总结RL在不同应用中的用法。据作者所知,本调查报告是第一份调查航空领域RL方法的研究报告。

图3 航空RL分类布局。

A 防撞和间距保证

空中交通管制(ATC)在空中交通管理(ATM)系统中起着至关重要的作用,因为它负责维护飞行安全和效率。避免碰撞是防止空中碰撞的最后一层防御。一方面,空中交通管制员必须在任何时候都保持任何两架飞机之间的安全分离距离。这个功能被称为冲突解决或间距保证。另一方面,早期改编的空中防撞系统是交通警报和防撞系统(TCAS)[51]和最近的下一代机载防撞系统(ACAS-X)[52], [53]。后者建立在TCAS的基础上,引入了部分可观察的马尔可夫决策过程(POMDP)来表述问题。它通过评估最接近的时间向飞行员提供语音和视觉警告,以确定是否有可能发生碰撞。最近在基于RL的防撞和间距保证方面进行了许多研究,表I列出了其中的一部分。

表I:从有关避免碰撞的RL的文献中选出。状态/行动空间(S/A空间)可以是连续的(C),离散的(D),或混合的(M)。

[50]中介绍了自由飞行空域中的MDP防撞方法。在有合作(飞机主动试图避开其他飞机)和非合作(那些不关心避免碰撞)的三维环境中,自由飞行的MDP公式能够避免飞机之间的碰撞。在[49]中,DRL方法被实施为对避撞问题的优化。

在许多具有挑战性的问题上表现出超越人类水平的性能,无人驾驶飞行器(UAV)的防撞问题已经通过实施DQN算法得到了解决[40]。在[41]中,实施了来自演示的深度Q-Learning(DQfD)和奖励分解来提供可解释的飞机防撞解决方案。DQN技术也被应用于无人机的防撞[40],在NASA的33区改变路线和速度[55],在现有防撞方法的基础上计算修正[51],[53],以及在密集空域的无人自由飞行交通[49]。[56]中提出了一个使用RL和GPS航点来避免碰撞的框架。在[57]中,应用了一个双深Q网络(DDQN)来引导飞机通过终端区域而不发生碰撞。该方法解决了传统防撞方法失败的情况,即在密集的空域中,那些预计被无人机占据的空域,并证明了提供合理修正的能力,以保持飞机系统之间的足够安全。

PPO方法被广泛用于飞机防撞中,并显示出有希望的成功。使用PPO网络[42]解决结构化空域中的防撞问题,使用长短时记忆(LSTM)网络[43],以及注意力网络[44]来处理可变数量的飞机。虽然这些算法在训练环境中表现出很高的性能,但评估环境的轻微变化会降低这些PPO模型的性能。有人提出了一个基于MonteCarlo Dropout[58]和执行时间数据增强的安全模块,以解决环境中的防撞问题,这些环境与训练环境不同[45]。为无人驾驶飞机提出了一个PPO网络,以提供安全有效的计算指导操作[59],并在连续状态和行动空间中指导无人驾驶飞机避免与障碍物相撞[46]。一个消息传递网络[60]被引入以支持避免碰撞。

注入了飞机的先验物理信息,以建立一个物理学上的DRL算法来避免飞机碰撞[61]。在[62]中提出了一种奖励工程方法,以支持PPO网络解决二维空域中的防撞问题。

一些研究将DDPG[21]应用于飞机防撞问题。在[47]中,基于DPG的DRL方法被应用于解决存在不确定性的连续行动空间的两架飞机之间的冲突。另外,一个智能交互式冲突解决器被用来获取ATC的偏好,并由RL智能体提出捕捉这些偏好的冲突解决方案[63]。后来,DDPG算法处理了交通量增加的航空部门[64]。在飞机到达航区边界之前,DDPG算法获得了一个适当的航向角,以避免碰撞[65]。DDPG方法也被提出来用于减轻高密度情况下的碰撞和不确定因素[66]。有人提出了一种混合方法,它结合了传统的几何解决方法和DDPG模型,以避免冲突[67]。多智能体深度确定性策略梯度(MADDPG)被应用于成对地解决两架飞机之间的碰撞[68]。另一种基于MADDPG的冲突解决方法减少了空管和飞行员在运行中的工作量[69]。

在这种应用中,演员批判算法也很受欢迎。在[48]中提出了K-控制行为批评算法来检测冲突和解决二维连续行动空间。一个策略函数返回一个基于给定状态的智能体可以采取的行动的概率分布。[70]为三维非结构化空域中的空管建立了一个基于图的网络,通过避免潜在的碰撞和冲突来管理空域。有人提出了一个多层RL模型来引导多维目标问题中的飞机[71]。另外,一个LSTM网络和一个行为评论模型被用来避免固定翼无人机的碰撞[72]。

除了这些流行的模型,其他RL方法也被用于避免碰撞。在[73]中提出了一种基于消息传递的分散计算引导算法,该算法使用了多智能体蒙特卡洛树搜索(MCTS)[74]公式。该算法还能够防止无人机在城市空中移动(UAM)环境下的间距损失(LOS)。在[50]中建立了一个高效的基于MDP的分散算法,以防止自由飞行空域中合作和非合作无人机的冲突。在[76]中提出了MuZero算法[75],以缓解碰撞的发生。在[77]中应用了差异奖励工具,图卷积强化学习算法解决了多无人机冲突解决问题[78]。

将DRL模型与NN训练同时进行,可以减少学习时间,并由于消除了离散化问题而执行更精确的模型[79]。尽管DRL在飞机间距保证方面已经显示出巨大的成功,但仍有许多未解决的问题。这些问题对在现实世界中这一安全关键应用中建立DRL模型造成了关键障碍。一个主要问题是验证。用于飞机间距的DRL模型有很深的结构和复杂的输入状态。复杂的结构使得使用传统的形式化方法来验证DRL模型的属性变得困难。目前使用形式化方法的工作只能用浅层DRL模型验证非常简单的属性。验证的缺乏限制了这些DRL模型的可信度以及它们在现实世界中的应用。

另一个重要问题是模拟和现实之间的差距。用于飞机间距保证的DRL是用模拟器训练的,因为考虑到潜在的损失,现实世界的训练太昂贵了。然而,不可能让模拟完全模仿现实。模拟和现实之间的分布变化可能会制约DRL模型的学习性能。

除了这两个问题,用于飞机间距保证的DRL也面临着一般DRL模型的问题。例如,目前用于间距保障的DRL的采样效率很低,这就高度限制了训练速度。另外,用于间距保证的DRL模型作为一个黑箱工作。它不能在这个过程中提供可解释的决策。

B 空中交通流量管理

交通管理是一个涵盖了任何直接影响或用于决定空中交通运动的系统的术语。这些系统的首要目标是减少延误,同时保持空域的运行安全。一般来说,空中交通流量和容量管理是共同空中交通服务(ATS)的一部分,并直接或通过ATC与飞行员对接。最后,所有这些设计的系统可以通过两个分类来考虑;为无人交通管理(UTM)和无人机系统操作设计的系统,以及为更多的常规操作设计的系统。

表II: RL在航空交通流管理中的文献选取

空中交通流量和管理(ATFM)是交通管理的一个子集,重点是确保可用的空域容量得到有效利用。容量不仅受航段大小、形状或高度的影响,而且还受风、天气和紧急情况等随机变量或机场容量和吞吐量等更多恒定变量的影响。需求能力平衡(DCB)是一种预测方法,以确保空域或地面业务的有效运行。协作方法被引入到DCB中,利用:分配延误,允许替代轨迹,使用固定的空域划分,或调整空域划分来有效管理空域[54]。与其他解决方案不同的是,同步协作-需求容量平衡(SC-DCB)寻求放松空域配置的约束,其结果表明,减少有效扇区,从而更好地利用有效扇区。在最近的工作中[80],RL技术被用来检查其在UAM流量管理中的效率,使用的状态空间包括从飞机、天气、空域容量和交通密度监测中检索的数据,以及通过Post-Hoc系统构建的训练数据。流量管理中的多智能体法也出现了[81]-[83],证明了MARL方法可以在交通密集区(热点)通过采取滞留、离开或合作行动成功解决这些热点问题。该方法也导致了整体延迟的减少。

地面延误方案(GDP)处理到达机场的过多的航班,作为另一种空中交通流管理机制。机场处理到达航班的能力可能受到天气状况的不利影响。发布航站楼交通管理倡议(TMI)是一种在短期内减少进入机场的飞机数量的技术。这种技术的一种类型是地面延误计划。有人提出了一种基于多臂匪徒框架的数据驱动方法来建议TMI行动[84]。这将有利于人类决策者评估建议的解决方案是否合理。这些建议是基于预测和观察到的需求和容量的历史数据、选择的TMI行动和观察到的性能。结果表明,几乎所有建议的算法都略微超过了历史行动。[85]提出了四种在不确定天气条件下推荐战略性TMI参数的方法。前两种方法是基于随机探索的,而其他方法则是使用-贪婪方法和Softmax算法。快速模拟结果表明,相对于其他方法,后两种方法的性能很强,而且它们有可能帮助处理天气的不确定性。[86]对行为克隆(BC)和反强化学习(IRL)在预测每小时专家GDP执行行动方面进行了比较。历史数据被用来预测旧金山和纽瓦克国际机场的GDP决策。IRL方法被提出来,通过只探索数据中的状态来降低复杂性。实验结果表明,BC比IRL的GDP实施模型具有更强的预测性能。实验还表明,无论是BC还是IRL模型都不能很好地预测相对不频繁的GDP初始化或取消事件,这与Q-learning不同,后者往往能提供准确的预测时间[87]。更好地预测滑行时间将改善滑行管理,这可以通过使用GDP减少拥堵而有利于轨迹规划。

随着空域因更高的交通量和新兴的UAS/UTM技术的引入而变得更加密集,交通管理解决方案将需要证明其适应能力,不仅要适应更高的航空交通量和密度,还要适应这种新的航空交通分类所带来的任何新要求。此外,这些系统的安全和能力将需要正式的验证和标准化的确认,将ATM中的RL领域从实验室中移出,准备被官方机构接受。最后,关于UTM/UAS空域如何构建仍有许多未知数,这为解决方案的设计增加了一层复杂性;新系统应接受这一概念,并在空域仍在定义时提供灵活性。

C 航空公司收益管理

在1970年代,对机票定价和网络调度的控制是有限的。如果一家航空公司想提高票价,需要得到联邦机构--民用航空委员会(CAB)的许可。当时的定价监管总是导致票价上涨。1979年解除了对航空公司的管制,允许公司自由安排航班和定价。因此,航空公司收入管理(ARM)作为一种商业惯例出现了,在有易损库存的情况下制定价格。ARM是航空公司通过优化票价和产品供应来实现收入最大化的策略。经典的ARM问题可以分为两种类型,基于数量的收入管理和基于价格的收入管理(RM)[94]。

基于数量的收入管理是在一个预先定义的n级票价结构上进行的,并决定每个票价等级有多少张票被保护。同时,它侧重于单程和网络航班段的容量控制。作为基于数量的RM的代表,预期边际座位收入(EMSR)模型[95]在现代航空业被广泛使用。基于价格的RM更注重于动态定价情况。

表III:RL在航空公司收益管理中的文献选取

传统的和广泛使用的ARM系统的方法是基于模型和数据驱动的,这在很大程度上取决于预测数据的准确性,如乘客到达分布、支付意愿(WTP)和取消率。最近,研究人员一直在考虑在ARM上应用无模型的学习方法,如最优控制理论或RL。在ARM中使用RL的研究方向始于2002年[88],其中λ-smart算法被设计为在平均奖励优化准则下,将单腿ARM问题作为无限时间范围的半马尔科夫决策问题(SMDP)。后来,在同一问题上应用了有界行为人批评法[89]。这两项研究都声称,该模型的性能优于EMSR模型。已经引入了ARM上的DRL模型,将领域知识与在图形处理单元(GPU)上训练的DNN结合起来[90]。一个DRL模型也被应用于库存控制问题,使用DQN并考虑其环境中的取消和超额预订[91]。近年来还出现了一些其他对DRL模型的改进。例如,通过结合基于数量的RM和基于价格的RM研究了一个ARM问题[92],而DRL被应用于单腿和网络腿问题[93]。

以前的基于学习的方法考虑了乘客和航空公司之间的博弈。然而,关于不同航空公司之间的竞争性定价过程的工作有限。我们相信随着多智能体强化学习的发展,这将是一个令人兴奋的话题。

D 飞机飞行与姿态控制

由于系统的非线性、不确定性和环境中固有的作用于系统的噪声,飞机的姿态控制可能是一个挑战。最近,研究人员旨在开发基于RL算法的先进控制器。表四列出了姿态控制应用中的一些RL方法。

表IV:态度控制中RL的文献选择。

这些提议的控制器已被用于目标跟踪[96],[97],单/多智能体避障[97],[98],基于视觉的着陆[99],稳定[100]-[103],视觉伺服[104],和平旋恢复[105]。

在[103]中,表明直接通过RL训练控制器,基于非线性或未知模型,是可行的。在[106]中还比较了基于不同RL算法的控制器的性能。结果显示,DQN比策略梯度或DDPG更适合于离散任务,而DDPG在更复杂的任务中表现更好。另外,DQN方法被用来设计飞机的姿态控制系统[103], [106]. 此外,基于DDPG的控制器在[97]、[106]、[107]、[110]、[111]中建立。一个改进的DDPG方法与转移学习相结合,开发了一个控制系统来进行自主机动目标跟踪[97]。还研究了一个基于DDPG的控制器,引导无人机从任何位置和姿态到水平面的固定位置[110]。

其他研究也采用了PPO方法[98], [101], [108]。开发了一种改进的MARL算法,命名为多智能体联合近似策略优化(MAJPPO),以进行编队和避障。该控制器采用了移动平均法,使每个智能体获得一个集中的状态值函数[98]。通过进行实验比较,表明MAJPPO算法可以更好地处理部分可观测环境。一个基于PPO的控制器被设计用来稳定一个固定翼无人机[101]。训练后的策略在收敛所需的迭代次数方面优于PID控制器。研究还表明,RL控制器可以适应严重的环境干扰。

由于RL在姿态控制方面取得了重大进展,它被认为是设计最佳和稳健控制器的一种有前途的方法。然而,仍有一些挑战需要解决。实验证明了模拟和自然环境之间的差距[109],这需要一种新的训练方法。一个控制器学会了适应训练模型和真实环境之间的差异。探索和利用的平衡是RL的另一个难题。在训练过程的开始,使用了探索环境的正态分布噪声[107]。它还提议在未来的工作中使用Uhlenbeck-Ornstein随机噪声。

E 容错控制器

故障是指一个系统的属性或参数发生变化,导致系统的行为与设计不同。换句话说,故障是一种使系统无法运行的状况。容错控制器(FTC)是一种控制策略,其目的是改善因故障而运行在性能下降的系统的性能[116]。根据用于开发控制器的方法,FTC被描述为基于模型或数据驱动的。基于模型的技术需要了解系统的模型和参数来设计一个容错控制器。相反,数据驱动的方法直接从系统数据中学习FTC。基于模型的FTC方法的基本问题是,它的有效性取决于系统模型的正确性,而当系统参数因故障而变化时,这种正确性很难建立。此外,复杂的系统需要复杂的控制器,这反过来影响了控制器的稳健性。另一方面,数据驱动技术利用数据来设计FTC,而不知道系统的动态。因此,数据驱动的方法,特别是基于RL的技术,最近得到了很多关注。

表V:容错控制器RL的文献选择。

文献中提出了几种方法来解决使用RL的FTC控制器。不同的RL算法,包括DDPG、TRPO和PPO,已经被用于开发四旋翼姿态控制的FTC技术[112]。结果表明,在所开发的基于RL的容错控制器中,经过训练的基于PPO的姿态控制器在上升时间、达到的峰值速度和训练后的控制器组中的总误差方面优于完全调整的PID控制器。采用基于DPG的技术和积分补偿器来开发四旋翼飞机的位置跟踪控制器[113]。该方法采用了一个两阶段的学习方案,利用简化模型进行离线学习,并在飞行过程中完善学习的策略。结果表明,学习的FTC对模型错误和外部干扰有足够的鲁棒性。[114]中提出了一个基于DDPG的四旋翼飞机位置跟踪的容错策略。该框架的运行方式是与基于模型的控制器同时运行,只有当系统的行为与正常运行状态发生变化时才会激活。

无模型的基于RL的FTC方法的一个重要缺点是不能保证收敛性。为了克服这个问题,有人提出了一个基于模型的八旋翼飞机位置跟踪框架[115]。提出了四种RL算法,即PPO、DDPG、Twin-Delayed DDPG(TD3)和soft actor-critic(SAC)。结果表明,PPO更适用于容错任务。

F 飞行规划

飞行和轨迹规划是一个众所周知的航空问题,也是至关重要的。虽然空域用户希望得到最优化的轨迹,使成本函数最小化,但许多约束条件,如地面障碍物、容量限制或环境威胁,使这个问题难以解决。提出了几种技术,包括改道或地面延迟,以缓解大多数情况下的交通拥堵。ATM领域基本上是基于时间性的操作,用容量供求模型来管理空中交通流。这种操作会导致容量不平衡,当容量(定义为某一时期内某一航段接受的飞机数量)被超过时,会在航段中产生热点。飞机轨迹或飞行的规划可以在ATM领域定义的几个阶段完成;战略阶段包括一年和D-7之间执行的飞行规划,预战术阶段发生在D-7和D-1之间,最后,战术阶段发生在D日。RL规划器显示是解决危险环境下飞行前规划问题的一个有前途的工具[124]。

表VI:飞行规划中RL的文献选择。

无人机在执行从地形测绘到监视和军事任务方面的多功能性使得这个问题成为飞机运行的基本组成部分。无人机的许多既定任务之一是飞越地面目标。提出了用于军事用途的POMDP理论,并使用名义信念状态优化(NBO)来寻找考虑威胁、风效应或其他智能体的最佳轨迹[117]。此外,还提出了一种RL方法,利用无人机环境的几何信息,在实时规划中产生更平滑、更可行的轨迹[118]。在[119]中比较了决斗双深Q网络(D3QN)、DDQN和DQN方法,以解决智能体在面临环境威胁的动态环境中的路径规划问题。

一种RL方法被用来解决这些有交通速度调节的热点问题[125]。代表一个固定点(扇区中的一个二维点)的智能体可以调节流量。通过提高计算能力,航班已被视为智能体,并提出了MARL方法[120]来解决这些容量问题。还研究了各种算法:独立学习者、边缘MARL和基于智能体的MARL,基于Q-learning技术。使用GDP来解决热点问题,在GDP中,航班出发时间被推迟,以转移整个轨迹[121]。结果表明,协作方法产生了更好的结果。为了减少搜索空间,提出了一个分层的MARL方案,用GDP解决需求-容量平衡(DCB)问题[82],从而允许对时间和状态动作进行抽象。受监督学习的启发,有人提出了建立在PPO上的多个监督-MARL框架[81],其中代表航班的智能体有三种行动:保持出发、起飞或协作。这项研究表明,增加监督者可以帮助提高搜索和概括能力。DQN和分布式训练与分布式执行(DTDE)结合重放经验[122]也被用来解决DCB问题。此外,还构建了一个多智能体异步优势行为者-评论者(MAA3C)框架,在适当的地面延迟内解决空域热点问题[126]。

所有这些工作的目的是通过延迟航班来减少热点,同时最大限度地减少平均延迟并确保良好的分布。但是,他们仍然没有研究其他轨迹规划技术。有人提出了一种RL方法来选择低水平的启发式方法,以减轻空中交通的复杂性[127]。飞行等级分配、错开出发时间和在途路径偏离减少了拥堵。在UAM概念中,出发前的空域预订问题被表述为一个MDP[123]。先入先出(FIFO)原则和快速MDP算法在战略阶段提供了一个无冲突的轨迹。调度器允许集中和分散的飞行计划,利用GPU的计算能力和并行化来处理大量的航班。有人提出了一种学习调度算法,以最大限度地提高飓风灾害等紧急情况下的航空容量[128]。

G 维护

维护调度是计划何时以及何种类型的维修检查应该在飞机上进行的过程。航空公司的维修任务通常被分为四个字母的检查(A、B、C和D)。这些组的维护检查的详细程度是不同的。例如,A-和B-检查被认为是轻度维护,C-和D-检查为重度维护和更详细的检查。通常情况下,天气状况和飞行中断会导致计划的偏离。这些不确定因素使飞机维修调度成为一项具有挑战性的任务。

为飞机维修检查开发了一种前瞻近似的动态编程方法[129]。它的计划最大限度地减少了维修检查之间的浪费的利用间隔,同时减少了对额外维修时段的需求。该方法通过对A320系列机队的维修数据的两个案例研究进行了测试。所开发的方法显示了计划维修时间的显著变化;它在四年内减少了1.9%的A检查次数,9.8%的C检查次数,以及78.3%的额外机位数量。

[130]中提出了一种基于RL的方法来解决飞机的长期维护优化问题。所提出的方法使用有关飞机未来任务、维修成本、预知和健康管理等信息,以提供实时、连续的维修决策。在几个模拟的维修场景中,RL驱动的方法在根据不同的数据调整其决策原则方面优于现有的三种常用策略。[131]提出了在维护计划中整合人机协作的RL模型以及基于状态的维护指标的可视化。同时还提出了在突发事件发生时的最佳维护决策。

H 强化学习的安全性和认证

在航空系统等安全关键应用中,安全是最重要的。最近在RL方面取得的可喜成果鼓励研究人员将此类技术应用于许多现实世界的应用。然而,基于学习的方法的认证,包括安全关键应用中的RL,仍然是一个开放的研究问题[132], [133]。最近的调查对安全关键应用中的安全RL的努力进行了全面的概述[134]。虽然人们对安全RL有很多研究兴趣,特别是在自动驾驶领域[135]-[137],但在航空研究领域,安全RL问题仍然没有得到充分的探讨。安全RL在航空系统中的应用已经从不同角度进行了研究。例如,最近,有人提出了一种用于自主机载防撞系统的安全RL方法[62]。从冲突解决的角度来看,在分层空域的垂直机动过程中,使用了软行为者-批评模型[138]。在一个类似的研究思路中,一个安全的深度MARL框架可以识别和解决高密度下飞机之间的冲突[42]。

从运行时保证的角度来看,一种运行时安全保证的方法将该问题作为一个MDP框架,并使用RL来解决它[139]。同样,路径规划问题也被框定为MDP,并利用MCTS进行安全和保证路径规划[140]。为了保证实时自主飞行操作的安全,有人提出了一种MCTS算法,同时还提出了高斯过程回归和贝叶斯优化来离散连续行动空间[141]。此外,一个强化学习框架预测并缓解了拥挤空域中潜在的分离事件损失[142]。最近,为航空系统中基于学习的组件的设计时和运行时保证提出了一个安全验证框架[133]。

结论

本文在回顾了最常见的RL技术及其总体方法和原理后,提出了RL在航空领域的应用调查。从航空公司的收入管理到飞机的姿态控制,RL方法的使用在过去十年中在文献中表现出极大的兴趣。事实上,随着计算能力的提高和对大量数据源的访问,这种数据驱动的方法已被广泛研究。无论是避撞、交通管理,还是其他与航空有关的问题,这些基于学习的框架都显示出了很好的效果,各种算法和技术经常被研究用于特定问题。最先进的技术,如DRL或DPG,被用来处理关键系统,如避免碰撞或处理交通管理和飞行计划中不断增长的航空交通。然而,模拟环境和现实世界的应用之间的差异或其黑箱方案仍然可以成为在航空业实施的障碍,受到众多安全措施的限制。因此,这种方法的认证是这些创新和颠覆性的航空应用的关键点,应该成为该领域的研究重点之一。

成为VIP会员查看完整内容
48

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于模型的强化学习综述
专知会员服务
45+阅读 · 2023年1月9日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
170+阅读 · 2022年4月30日
专知会员服务
154+阅读 · 2021年8月3日
2020->2021必看的十篇「深度学习领域综述」论文
专知会员服务
134+阅读 · 2021年1月1日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
【700页书稿】《决策算法》2022年MIT
专知
7+阅读 · 2022年11月18日
2018最具突破性计算机视觉论文Top 10
炼数成金订阅号
16+阅读 · 2019年2月15日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
56+阅读 · 2021年5月3日
Arxiv
11+阅读 · 2020年12月2日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Arxiv
53+阅读 · 2018年12月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员