《用于空战行为建模的模仿学习：一项探索性研究》2023最新75页技术报告

战斗机飞行员通常使用模拟器来练习他们需要的战术、技术和程序。训练可能涉及计算机生成的力量，由预定的行为模型控制。这种行为模型通常是通过从有经验的飞行员那里获取知识而手工制作的，并且需要很长的时间来开发。尽管如此，这些行为模型由于其可预测性和缺乏适应性而通常是不够的，教官必须花时间手动监测和控制这些力量的各个方面。然而，最近人工智能（Al）研究的进展已经开发出能够产生智能代理的方法，在复杂的游戏（如围棋和《星际争霸II》）中击败人类专家玩家。

同样，人们可以利用人工智能的方法来组成空战的高级行为模型，使教官能够更专注于飞行员的训练进展，而不是手动控制他们的对手和队友。这种智能行为必须表现得逼真，并遵循正确的军事理论，以证明对飞行员训练是有用的。实现这一目标的一个可能方法是通过模仿学习，这是一种机器学习（ML）类型，代理学习模仿专家飞行员提供的例子。

本报告总结了使用模仿学习技术优化空战行为模型的工作。这些行为模型被表述为控制计算机生成的部队的行为转换网络（BTN），由下一代威胁系统（NGTS）模拟，这是一个主要针对空域的军事模拟应用。遗传算法Neuroevolution of Augmenting Topologies (NEAT)的一个改编版本优化了BTNs，使其行为与飞行员行为的演示相似。与大多数ML方法一样，NEAT需要许多连续的行为模拟来产生满意的解决方案。NGTS不是为ML目的而设计的，因此围绕NGTS开发了一个系统，该系统自动处理模拟和数据管理并控制优化过程。

进行了一组实验，其中开发的ML系统对BTN进行了优化，以模仿三个简单空战场景中的例子行为。实验表明，NEAT的改编版本（BTN-NEAT）产生的BTN能成功地模仿简单的示范行为。然而，优化过程需要相当长的时间，计算时间长达44小时或模拟飞行时间为92天。缓慢的优化主要是受NGTS不能快速运行同时保持可靠的影响。这个可靠性问题是由NGTS缺乏时间管理造成的，它可以将代理人的状态与模拟时间戳联系起来。为了在更复杂的场景和演示中实现成功的行为优化，人们应该在高可靠性的前提下以比实时快得多的速度模拟行为。因此，我们认为NGTS并不适合于未来的ML工作。相反，需要一个为ML目的设计的轻量级空战模拟，能够快速可靠地运行。

引言

战斗机飞行员通过严格的训练学习并保持他们的战术技能。相当多的训练是以模拟为基础的，在训练中，受训者面对友军和敌军，他们的行为最好能加速训练并建立起理想的能力。计算机生成的部队（CGFs），是自主的、计算机控制的实体，被用来扮演这些友军和敌军的角色。理想情况下，在基于模拟的训练中使用CGF应该提供一些好处，如增加飞行员的训练可用性，减少训练中对主题专家（SME）的需求。然而，手动模拟CGF的行为，使其对教学作用有足够的代表性，这是很繁琐的，而且已被证明具有挑战性。因此，目前手工制作的行为模型往往是可预测的，不能适应新的情况或在军事理论、战术、技术和程序（TTP）方面表现得很真实。在基于模拟的空战训练中保持真实的体验对于确保受训者获得必要的技能至关重要。然而，由于CGF的表现和行为被认为是不足的，中小企业往往在训练中对CGF进行微观管理，这是不幸的，因为中小企业的成本很高，他们的时间很宝贵，而且数量有限。

人工智能研究的最新进展已经开发出能够产生智能代理的方法，在复杂的游戏中击败人类专家玩家，如围棋[1]和星际争霸II[2]。随着这些进展，学习用于空战的指导性和适应性代理行为已成为一个越来越受关注的研究领域。然而，为了发挥作用，飞行员模拟的对手和盟友的行为必须是真实的，并符合军事理论，而不是，例如，试图不惜一切代价赢得交战。该研究领域的一些贡献集中在强化学习方法上，并且已经显示出一些有希望的结果。然而，即使仔细设计目标函数，强化学习代理也有可能学习到用于飞行员训练的次优政策，这意味着他们的行为与根据既定理论和TTP所期望的不同。另一种方法是向ML算法提供专家示范，从中提取飞行员的具体知识，并将其纳入代理人使用的行为模型。据我们所知，在空战领域，很少或没有先前的研究探讨过这种方法。

本报告介绍了基于达尔文自然选择原则的模仿学习算法被用来产生以行为转换网络（BTNs）表示的空战行为模型。虽然BTNs已经出现在之前使用强化学习的空战行为建模的相关工作中，但这项工作研究了BTNs是否适合模仿学习。下一代威胁系统（NGTS）被用来模拟BTNs，并进行了评估以考虑该模拟系统对机器学习（ML）的适用性。已经开发了一个ML系统，包括使用NGTS和选定的学习算法成功生产空中战斗机代理所需的工具和方法。这个ML系统自动处理模拟和数据管理并控制学习算法。简单的空战场景被定义，并在使用该ML系统进行的一系列实验中使用，在这些实验中产生了反映示范飞行员行为的BTN。

为了限制这项工作的范围，我们做了一些限定。开发的ML系统不是生产级的，而是一个概念验证。因此，实验中使用的场景和试点演示保持简单。具体来说，这些都是一对一的场景，演示仅限于二维空间的运动。此外，行为演示是基于报告作者手工制作的BTN，而不是由专业飞行员制作的。

本报告是为从事军事训练和人工智能相关课题的研究人员准备的，最好具有空战和行为建模的知识，其组织结构如下。第2章介绍了工作的背景，包括与空战训练和模拟有关的概念、人工智能理论和相关工作。第3章涵盖了实验中使用的选定的学习算法及其配置，而第4章介绍了构成ML系统的过程和工具。第5章和第6章通过定义空战场景和行为演示来回顾实验的设置和执行，并介绍了结果。第7章讨论了这些结果，以及ML系统和NGTS的性能。第8章本报告的总结和对未来工作的思考。