《超视距空战机动强化学习方法》最新105页

人工智能的最新进展为研究自主空对空作战提供了机会。本研究考虑了一个单对单空战机动问题（ACMP），其中友方自主飞机必须在超视距（BVR）环境中与敌方自主飞机交战并击败敌方自主飞机。马尔可夫决策过程描述了 BVR-ACMP 的特征，提供了一个数学建模框架，用于确定高质量的决策策略，使友方自主飞机能够做出智能机动和导弹发射决策。高级仿真、集成和建模框架（AFSIM）对 BVR 空中格斗中使用的飞机的复杂和相互依存的操作进行建模，包括运动学以及传感器和武器使用。BVR-ACMP 中的状态和决策变量具有高维度和连续性的特点，因此无法使用精确的求解程序。相反，采用了强化学习（RL）求解程序，实施线性值函数近似方案来表示状态-决策对的值。创建了一个具有代表性的中性起始状态场景，用于训练友好型自主飞行器和评估 RL 求解方法的性能。通过设计实验来确定友机特性如何影响求解程序所获得的策略。在评估各种飞机参数重要性的实验中，进行了两阶段超参数调整实验，以获得超级策略。为了了解友机如何利用从 BVR-ACMP 文献中获得的固定策略击败敌机，考虑了几个案例研究，并检查了 RL 求解方法确定的高质量机动和射击策略。结果验证了在AFSIM中使用RL求解方法训练自主飞机的可行性，并为未来研究人员利用AFSIM的建模能力研究更复杂的空战场景提供了途径。

技术进步和创新使现代军队的作战能力不断提高。美国军方认识到，人工智能（AI）的发展为维持空中优势带来了越来越大的安全风险（Morgan 等人，2020 年）。美国空军（USAF）的主要任务是空中优势，即在友军行动不受敌方干扰的情况下实现空中优势（美国空军部，2016 年）。人工智能的崛起为敌方战斗人员以前所未有的方式破坏美国空军的空中优势目标提供了机会。Hoadley 和 Lucas（2018 年）指出，人工智能技术为军事行动带来了独特的挑战，因为绝大多数人工智能研究都发生在私营部门。因此，美国空军已通过国防高级研究计划局（DARPA）调查的倡议认识到，它必须在空对空作战领域利用人工智能的进步。众所周知的 F-16 飞机已经接受了人工智能方法的训练，可以在测试试验中自主飞行并执行各种任务（马丁，2017 年）。

目前，一些国家正在对人工智能技术民主化后建立的半自动飞机进行飞行测试。Byrnes（2014）得出结论认为，这些自主飞机代表着空战战术新一天的到来。2015 年，美国前海军部长表示，F-35 几乎肯定会成为最后一种有人驾驶的战斗机（LaGrone，2015）。通常情况下，飞机由人类飞行员在空中或通过无人机系统控制。由人类飞行员在空中控制的飞机面临着基于人体机能的限制。不受人类飞行员限制的飞机有可能承受以前无法想象的机动动作（Halpern，2022 年）。美国国防部研究机构的 “空战进化 ”项目计划于 2024 年在四架由人工智能控制的飞机之间进行一次空对空实战演习。尽管这些演习只是初步的，但如前所述，在不远的将来，各国军队使用人工智能增强型飞机来对付敌人并非不可想象。

从第一次世界大战到 20 世纪 50 年代中期，空对空作战的形式是视距内（WVR）空战，也称为 “狗斗”。WVR 空战要求飞行员操纵飞机部署火炮摧毁目标。20 世纪中期的武器发展包括红外（IR）和雷达制导导弹。制导导弹的首次使用是在 1958 年 9 月（Stillion，2015 年）。这些导弹允许在超视距（BVR）环境下进行攻击，在这种环境下，敌人可以被摧毁，而无需像在 WVR 环境下那样机动到有利位置使用火炮。现在，BVR作战占据了空对空交战的大部分（Stillion，2015）。因此，美国空军的当务之急是充分利用在飞机探测、传感和空对空导弹（AAM）方面取得的技术进步，获取并保持空中优势。

过去，由于缺乏敌我识别（IFF）能力，BVR 技术的进步及其实施受到了限制。在 BVR 环境下，无法识别飞机是敌是友会让飞行员犹豫不决（Stillion，2015 年）。IFF 技术不断进步，使飞行员能够在远程 BVR 环境中辨别飞机是敌是友（Stillion，2015 年）。基于这一现代现实，Stillion（2015）预计空对空作战将趋向于传感器技术和远程信息的较量，而不是飞机速度和机动性的较量，而速度和机动性在 WVR 空对空作战环境中是非常可取的。

随着传感器技术的进步，为 BVR 空战部署的反坦克导弹可使飞行员增加可能的摧毁射击集，而不受 WVR 武器的限制。使用反坦克导弹的一个显著特点是知道应在何时何地发射反坦克导弹以摧毁敌人。一个有用的概念是 “无逃逸区”，在这一区域内，无论是否有任何机动逃逸尝试，导弹都有近乎确定的概率击中敌方目标（Neuman，1988 年）。因此，人工智能方法可以发现人类飞行员过去可能没有考虑或利用的信息，从而了解最佳的反坦克导弹发射时间。然而，人工智能的使用是双向的。摩根等人（2020 年）指出，对手可以利用人工智能方法来颠覆部署人工智能技术的组织的目的。

此外，军用人工智能对美军构成了独特的威胁，因为美军并不垄断该技术。美国国防部对《2022 年国防战略》的总结肯定了这一现实，其中观察到俄罗斯和中国等国家为在各自军队中利用人工智能进行了大量投资（United States Department of Defense, 2022）。因此，如果美国及其盟国希望在现代保持空中优势，那么人工智能在国防领域的发展就必须继续下去。

人工智能技术（或更具体地说，机器学习）性能的基础是自主系统用于 “学习 ”的训练经验（Jordan and Mitchell, 2015）。训练自主系统的一种方法是基于规则的逻辑，即在给定一组信息要素的情况下，自主智能体根据预先设定的选择做出决策。一旦知道了智能体将要做出的举动，这类人工智能就很容易被打败。同样，新的智能行为也不是通过简单地将已知信息嵌入人工智能体内部就能获得的。为了应对军事领域自主系统所面临的难题，人工智能需要提供新的信息，为用户带来优势。

与基于规则的逻辑相比，更好的方法是用强化学习（RL）来训练自主系统。强化学习是智能体发现哪些行为能给它们带来最大回报的过程（Sutton 和 Barto，2018 年）。正如摩根等人（2020 年）所说明的，RL 非常适合复杂的游戏式场景，在这种场景中，学习智能体可以利用游戏环境的优势来发现制胜策略。例如，RL 可以训练计算机智能体在最复杂的活动中击败人类冠军，如经典的围棋游戏（Silver 等人，2016 年）。即便如此，这些击败冠军的智能体也可能被另一个通过 RL 训练的智能体利用对手的策略击败（Silver 等人，2017 年）。研究人员利用空对空作战的博弈特性，使用博弈论对其进行建模（Austin 等人，1990 年）。由于空对空作战非常适合建模，而 RL 已被证明能够为决策者提供高质量的行动，因此在研究中使用 RL 是非常合适的。

因此，试图模拟在一对一（1v1）BVR 战斗中的自主无人战斗飞行器（AUCAV），在这种战斗中，AUCAV 做出机动和武器部署决策以击败对手飞机。采用 RL 技术优化 AUCAV 的能力，以生成这种智能体。制定了一个无限视距、贴现马尔可夫决策过程（MDP）模型来模拟这一场景。马尔可夫决策过程是一种顺序决策模型，用于确定基于系统环境的最优决策（Puterman，2005 年）。顺序决策问题可通过 RL Powell (2022) 求解。本研究采用无模型 RL 算法 Q-learning 来确定最佳决策策略。

RL 算法与仿真、集成和建模高级框架（AFSIM）（West 和 Birkmire，2020 年）相连接。AFSIM 为RL 智能体提供了训练和获得高质量解决方案的环境。在美国国防部，AFSIM 是标准的任务级仿真工具（Zhang 等人，2020 年）。由于它是面向对象和基于智能体的，AFSIM 为实施 RL 解决方案程序提供了理想的基础，同时还包含了两架竞争飞机的必要领域信息。利用 Python 编程语言来构建算法，并与 AFSIM 接口，以测试和训练智能体。

本研究旨在填补 BVR 空中格斗场景 RL 解决方案方面的文献空白。从 McGrew 等人（2010 年）开始，空战机动问题（ACMP）被证明可以通过 ADP（即基于模型的 RL）求解。Yang等人（2019）、Wang等人（2020）、Pope等人（2021）和Crumpacker等人（2022）将McGrew等人（2010）的研究扩展到了高保真模型和不同的ADP求解程序。不过，McGrew 等人（2010 年）的研究以及他们的延伸研究考虑的是可视范围内（WVR）的设置。贡献包括采用无模型 RL 求解程序来解决 1v1 BVR-ACMP 问题，这在 ACMP 文献中尚未成为研究对象。此外，还探讨了不同环境问题特征的重要性，以及它们在使 AUCAV 战胜敌方 AUCAV 方面的能力。

本论文的其余部分安排如下。第二章概述了与 ACMP、一般 AAM 和 AAM 控制相关的文献、用于解决以前版本 ACMP 的求解程序，以及与无模型 RL 算法相关的文献。第三章介绍了BVR-ACMP 和相应的 MDP 模型表述，以及用于为AUCAV 寻找高质量决策策略的 RL 求解程序。第四章介绍了用于训练AUCAV 的计算实验结果，同时还分析了AUCAV 在训练过程中获得的决策策略。第五章总结了研究，并提供了未来研究的潜在途径。