随着机器学习技术的不断进步,创建能在模拟空战中表现逼真的智能体已成为一个越来越受关注的领域。本调查探讨了机器学习技术在空战行为建模中的应用,其动机是提高基于模拟的飞行员培训的潜力。目前的模拟实体往往缺乏逼真的行为,而传统的行为建模耗费大量人力物力,而且容易在开发步骤之间丢失基本的领域知识。强化学习和模仿学习算法的进步已经证明,智能体可以从数据中学习复杂的行为,这可能比人工方法更快、更具扩展性。然而,要使自适应智能体能够执行战术演习、操作武器和传感器,仍然是一个巨大的挑战。
调查研究了应用、行为模型类型、流行的机器学习方法,以及开发自适应和行为逼真的智能体所面临的技术和人力挑战。另一个挑战是将智能体从学习环境转移到军事模拟系统,以及随之而来的标准化需求。
本文提出了四项主要建议,涉及更加重视超视距场景、多智能体机器学习与合作、分层行为模型的利用以及标准化和研究合作倡议。这些建议旨在解决当前的问题,并指导开发更全面、适应性更强、更逼真的基于机器学习的空战应用行为模型。
行为建模是战斗机飞行员模拟训练和其他空战应用的基本组成部分。计算机生成部队(CGF)是军事模拟中用于代表友军和敌对部队的自主模拟实体。对它们的行为进行建模,使其行为逼真、像人一样,要求很高。因此,在当今的模拟训练中,飞行员与 CGF 作战时,CGF 的行为是可预测的,通常缺乏真实感。因此,教员必须手动控制 CGF 的许多方面,以确保飞行员获得所需的训练。Freeman 等人提出了实现逼真行为的四个功能要求,即战术推断、战术行动、模式行为和教学能力。
除训练外,逼真行为模型还有利于任务规划和战术制定等应用。建模和仿真工具可以帮助任务规划人员预测和评估不同场景的结果,从而在实际任务开始前完善战略和战术。战术开发可利用智能机器学习体的创造力,这些学习体可自主探索新策略,几乎不受任何限制。
传统上,空战行为是通过人工创建的,首先要从主题专家(SMEs)那里获取领域知识,然后创建反映这些知识的概念模型。最后,将模型作为基于规则的脚本(如决策树或有限状态机 (FSM))在计算机程序中实施。这一过程非常费力,而且在从一个步骤过渡到另一个步骤时,可能会丢失重要的领域知识。
近年来,应用机器学习(ML)高效开发空战行为模型的热潮兴起。使用数据驱动方法学习行为模型对模型表示法提出了其他要求。模型结构既要能从复杂数据中捕捉一般模式,又不能过于僵化,否则会限制学习潜力。神经网络是一种令人信服的模型表示方法,因为它具有可扩展性和并行处理能力,并允许迭代改进。
在强化学习(RL)、模仿学习(IL)和进化算法(EAs)等新方法的帮助下,将智能代理应用于一般复杂系统的进展或许也启发了向机器学习的转变。强化学习(RL)方面的著名例子有 DeepMind 的 AlphaGo 及其后继者,它们在复杂游戏中达到了超人水平。机器人控制展示了 IL 的优势,以及展示一项任务有时如何是最简单的解决方案。此外,EA 在高维问题的全局优化方面表现出色。上述空战应用采用了反映人类行为的行为模型,但在无人战斗飞行器(UCAV)等应用中则不需要。Dong等人和Wang等人对自主空战的操纵方面进行了研究,其中Dong等人尤其关注低层次的控制和制导。这两项研究都概述了分析方法、基于知识的方法和机器学习方法的应用。所研究的行为模型旨在赢得一对一交战,这是无人机空战和战斗机飞行员训练中的一个关键问题。Dong 等人认为,机器学习方法能更好地模拟人类的感知和决策,而传统方法则能产生定义明确的演习。他们还强调了使用模拟系统生成学习数据的好处。Wang 等人认为,与设计复杂的模型(如深度神经网络)相比,现实场景和模拟对推进自主空战更为重要。
因此,最近有关空战应用的研究成果要求对该领域的观点进行修正。本文介绍了空战领域行为建模研究的现状,特别是基于机器学习的飞行员行为建模。目的是提供对流行模型、方法、场景和应用的见解。调查中出现的关键主题包括向多智能体学习的过渡、模拟系统的调整、基准场景的开发,以及它们对飞行员培训等实际应用的意义。这些发现为今后的研究工作指明了方向。
行为模型是一个广义的术语,指根据感知选择行动的模型,在机器学习中通常用数学函数表示。行为表示法的选择基于任务、应用、以往研究和相关技术要求。
图 1. BTN 示例,展示了与多个过渡相连的行动如何分配优先级。
Stottler Henke Associates 公司于 2000 年代初开发了行为转换网络(BTN),它本质上是一种以图形表示的行为脚本。行为按顺序执行,下一步执行哪个行为由转换决定。
从语法上讲,BTN 是有向双向多图。它们是双向的,因为所有边都连接着一个动作和一个转换。过渡节点表示一个条件,当条件满足时,动作节点之间就会发生过渡。此外,BTN 也是多图,因为行动节点可能连接到表达不同条件的多个过渡节点。在这种情况下,过渡节点会被赋予优先级,以确定在满足多个条件时的评估顺序。所有 BTN 都必须有一个开始行动节点和一个结束行动节点。图 1 是 BTN 的一个示例。
行为转换网络与 FSM 类似,但包含若干增强功能。BTN 可以是分层的,其中一个动作节点可以指向另一个 BTN。这种分层特性对于复杂行为建模和避免 FSM 的状态爆炸至关重要。BTN 的执行过程相对简单,从起始节点开始,一直执行到下一个节点。如果下面的节点是一个动作,该动作就会被执行。如果下面的节点是一个过渡节点,则只有在满足条件时才会发生过渡。如果下面的节点分支到一个以上的过渡,则会按照上述优先级方案给出的顺序评估它们的条件。请注意,在分层 BTN 中,如果一个操作节点指向另一个 BTN,则上级 BTN 中的任何后续过渡节点仍会被评估,并可能中断该子 BTN 的执行。这种行为是 BTN 的一个重要方面,有助于降低其复杂性。最后,执行终止于结束动作节点。在控制模拟实体时,每个实体都有自己的 BTN。BTN 可以在黑板上读写信息,从而实现实体间的信息共享与合作。
图 2. 斯特恩转换截距表示为 BT。改编自 Ramirez 等人。
行为树是任务切换的另一种范例,在 2000 年代成为主流,用于为《侠盗猎车手》、《光环》和《生化奇兵》等游戏中的非玩家角色建模。BT 的现代描述包括序列(→)、回退(?)、并行(⇉)、动作(阴影框)和条件(椭圆形)五种节点类型,如图 2 所示。示例显示了一架飞机拦截另一架飞机的演习。BT 从根节点(本例中为并行节点)开始,在每个刻度处进行评估。因此,飞机将同时执行三个子树,在执行代表转向的左侧子树的同时,匹配另一架飞机的速度和高度。回退从左到右执行子树,直到有一个子树成功为止,而序列则执行子树,直到有一个子树失败为止。按照这种逻辑,飞机必须达到一系列子目标,才能最终完成转换。
尽管 BT 与 FSM 的行为模型范围相同,但当它们变得复杂时,它们在某些方面更易于管理和修改。由于所有节点都返回成功、失败或运行,接口是固定的,因此可以在现有模型的任何地方插入子树。此外,图形编辑器也适用于 BT。BT 中的流程向下延伸到子节点,然后再向上延伸到父节点。这是一种双向控制转移,与 FSM 的单向控制转移不同。
模糊树是一种模糊系统(FS),是一种分层树结构。模糊树的一个显著特点是,感知和行动由语言变量表示,如接近、威胁、防御或回避。这符合人类的推理习惯,因为人类的推理是建立在定性描述而非数字的基础上的。FSs 最基本的组成部分是成员函数,根据智能体的感知定义语言变量。在两架飞机的空战中,“接近 ”可以用一个西格码成员函数来表示,该函数将飞机距离映射到成员值 𝜇∈ [0, 1],代表飞机接近的程度。语言变量用于制定构成行为模型的规则,如 “如果敌机在追击且距离很近,则执行收缩”。由于模糊逻辑使用的是数字而不是真假,因此 AND 返回的是𝜇(敌方追击)和𝜇(接近)的最小值。是否执行 “挤压 ”取决于成员值和所选阈值。如果有多条机动规则,则必须以某种方式对它们进行汇总。
神经网络是一种多功能行为模型,其行动原理是隐含的。这种灵活的结构允许通过数据驱动方法学习各种行为。图 3 是神经网络的一个示例,由感知 𝑋1 、 𝑋2 和 𝑋3 、两个灰色显示的隐藏层以及动作 𝑌1 和 𝑌2 组成。网络中的边代表权重,是行为模型的可训练参数。在最基本的网络中,每个节点的值都是其输入的加权和,但现代网络通常会采用一些额外的非线性变换,从而大大增加了函数空间。隐藏层的数量和大小也是可调的。
图 3. 具有三个感知输入、两个由四个节点组成的隐藏层(灰色)和两个动作输出的神经网络。
最常见的学习任务是空对空格斗,特别是狗斗。斗狗是一种近距离 WVR 空中格斗,利用战斗机基本机动(BFM)到达敌机后方,占据有利的交战位置。它是在第一次世界大战中自然产生的一门艺术,遵循的原则包括平衡空速和高度、尽量减少转弯率、从太阳方向攻击和避免过冲。从广义上讲,“狗斗 ”是一个受飞机和飞行员物理限制制约的三维几何问题。
美国国防部高级研究计划局(DARPA)的 “空战进化(ACE)”计划 “以人机协同狗斗为挑战问题,寻求提高对战斗自主性的信任”[83]。ACE 的一项名为 “AlphaDogfight Trials ”的可行性研究邀请八家公司制造斗犬智能体,在一系列淘汰赛中一决胜负。AlphaDogfight Trials 在 2020 年达到高潮,当时最优秀的智能体与人类驾驶专家进行了比拼,最终获胜。后来,ACE 的开发人员将一个智能体上传到一架被称为 “可变飞行模拟器测试飞机(VISTA)”的改装 F-16 上,并演示了该智能体可以控制飞机在各种模拟对手和武器系统的情况下进行多架次飞行。
空战 BVR 首次大规模出现在越战中,由于采用了更先进的武器、传感器和传感器融合技术,BVR 已逐渐成为空战交战的主要类型。BVR 方面增加了一些机动元素,如打破雷达锁定和耗尽来袭导弹的能量。何时使用雷达和发射导弹变得至关重要。
所审查的大多数研究都是为了改进战斗机飞行员的模拟训练。这些研究代表了为空战部分任务和使命制作行为模型的共同努力。无论如何,从在此类任务中展示适当的行为,到成功地将智能体融入飞行员培训,从而增强体验,还有很长的路要走。这其中既有技术方面的挑战,也有人为方面的挑战。
教员需要从少量的自适应智能体或更多的专业智能体中,方便地获得能够在他们设计的场景中扮演特定角色的智能体。智能体通过接触不同的情境和任务来学习适应性行为,这需要时间,也需要一个规模和结构能够代表复杂性的行为模型。大多数已发表的论文都对每个新情节采用随机起始位置或速度,有些论文还调整了其他情景参数,如友军和敌军飞机的数量。不过,要实现甚至预测飞行员训练中可能出现的所有情况并不可行。
高水平的适应性假定了对智能体功能的全面选择,包括操纵、武器和雷达控制。一半的研究包括武器,但只有少数研究涉及何时以及如何使用雷达和反制措施。虽然雷达、反制措施和后燃器等功能在许多情况下可以隐式建模,但有些训练场景要求飞行员明确使用这些功能。
教员应该可以根据培训目标和培训对象的经验水平来调整 CGF 智能体的攻击性或其他特征。行为表现决定了如何纳入特征参数。Källström 等人询问了 25 名飞行员他们眼中用于培训的智能体的重要特征,并区分了基本培训、程序和任务。飞行员们认为,在基础训练中,具有确定性行为的智能体是必不可少的。此外,程序也需要先进的战术智能体,而任务则在此基础上要求条令行为。只有在程序和任务中才会发现有挑战性的对手。
Källström 等人还询问飞行员,与智能体进行交流是否会增强训练效果。虽然交流很方便,但队友们通常知道在没有交流的情况下如何做出反应。语音作为一种交流方式可能具有挑战性,但也是可行的,因为它遵循预定义的协议。
技术上的挑战还包括将智能体从学习环境转移到军事人员使用的模拟系统,特别是当这些系统之间存在很大差异时。必须能够提取智能体所依赖的感知,而且动作格式必须一致。此外,机器学习环境的飞行动力学模型必须足够复杂,以捕捉与飞行员训练模拟相关的动力学。但是,考虑到深度学习对数据的大量需求,轻量级模拟系统是首选。为了方便智能体的转移,Strand 等人建议使用分布式仿真协议,实现不同保真度的仿真系统之间的交互。他们还强调使用 Gymnasium 等标准智能体接口,以便快速更改智能体的状态和行动空间,并在智能体方法之间进行切换。
矢量化 RL 环境和经验回放可将学习时间缩短数倍,大多数应用方法都允许使用其中一种或两种技术。矢量化环境易于建立,可利用多个处理单元同时收集经验。经验重放是提供非政策算法(如 DDPG 和 SAC)稳定性的关键组成部分,也可用于强调特别重要的经验,如使用武器。
尽管要求相似,但很少有研究采用相同的模拟系统。这导致缺乏标准化和基准。由空军研究实验室资助的九家公司组成的 “不那么大的挑战”(Not So Grand Challenge)就是采用标准环境的一项大型努力。这些公司开发了自己的智能体,并在使用政府现成软件构建的分布式仿真共同测试平台上进行测试。他们已经为一系列 1v1 和 2v2 场景制作了智能体,并正在逐步建立一个用于飞行员训练的对手智能体库。他们的想法是让数字图书馆员以反映和提高飞行员表现的方式为某种场景推荐智能体。
在已审查的研究中,空对空场景占主导地位,但只有不到一半是 BVR 场景,尽管随着 A/A 导弹和传感器覆盖范围的扩大,这种场景正逐渐成为常态。可能是因为狗斗涉及飞行员在训练初期学习的 BFM,所以狗斗仍占主导地位。从某种意义上说,智能体遵循与飞行员相同的课程是很自然的。利用课程学习的研究将智能体暴露在难度越来越高的场景中,包括逐渐降低战术优势、增加更多对手以及使对手更具竞争力。Källström 等人强调,课程学习可以解决奖励稀少的强化学习中出现的问题。这些研究发现,逐步增加情景复杂度可提高学习效率。
然而,如果某些元素(如狗斗)不是智能体的最终应用目标,那么让它们学习这些元素就没有必要了。事实上,在 BVR 场景中,BFM 有可能会在精通 BVR 方面走很大的弯路,因为 BVR 通常不是杂技,而是更具战略性的场景。
事实上,“狗斗 ”不那么具有战略性,而是更加具体,这可能也是它们作为使用案例受到青睐的一个原因。避免中弹或击落敌机等简单目标更容易反映在奖励功能中,从而正确引导 RL。然而,BVR 战斗中的目标并没有太大的不同。一些研究积极利用奖励塑造来提高学习收敛性,并将条令或领域知识纳入其中。
多智能体 RL 由于能够捕捉智能体之间的交互和战术依赖性及动态性,已成为一种强大的学习范式。飞行员不是单独行动的,他们必须学会如何与自己的飞行队和中队合作。在 MARL 中,每个智能体都代表着其他友方和敌方智能体的非稳态性,这从根本上增加了学习的难度,但也更加逼真。合作的关键方面包括编队、目标协调和防御支持,这些最终都会成为飞行员的第二天性。相比之下,明确制定合作行为规则却很困难。
复杂的行为模型可以利用分层结构将任务分解成更小的部分,如第 VII-C 节所述。调查文献中的高级策略都包括在至少一个防御性子策略和一个攻击性子策略之间进行选择。当对手占据优势时,就会使用防御性策略,反之亦然。Kong 等人和 Pope 等人的研究包括一个专门的子策略,用于在对手飞机后方获得控制区位置。Selmonaj 等人和 Kong 等人还在高层策略中加入了目标选择。Sun 等人的结构与众不同,因为高层策略有多达 14 个输出,编码 BFM 宏动作。他们使用低级策略来决定应用于所选宏动作的正常负载系数和速度指令。
基于机器学习的空战行为模型最突出的应用是加强基于仿真的飞行员培训、任务规划、开发新战术和战略,以及优化无人驾驶航空战斗飞行器。所审查的研究表明,人们正在共同努力为特定空战任务建立行为模型,特别是在战斗机飞行员的模拟训练方面。然而,尽管取得了显著进展,将这些模型无缝集成到综合飞行员培训计划中的挑战依然存在,这既是技术上的障碍,也是人力上的障碍,需要引起重视。
对具有广泛功能(包括操纵、武器、雷达控制和反制)的适应性智能体的渴望,强调了对基于机器学习的行为建模综合方法的需求。某些研究还指出,要达到足够逼真的效果,必须明确更多的智能体功能。将智能体从其学习环境转移到飞行员训练模拟系统所面临的技术挑战,强调了使感知和行动格式保持一致的重要性,以及维护兼顾复杂性和执行速度的动态模型的重要性。标准化仍然是一项挑战,很少有研究采用相同的模拟系统,这就凸显了像 “非凡挑战 ”这样建立通用测试平台的举措的必要性。
在对研究领域的现状进行调查后,我们提出了四项建议,旨在帮助推进基于机器学习的空战行为模型更加全面、适应性更强、更逼真。
A. 强调超视距场景。
尽管狗斗机器学习体令人印象深刻,但它们在当前空战状态下的相关性并不高。根据我们的审查,合理的重点转移应从 WVR 任务转向优先发展包含 BVR 任务所需的复杂性和战略方面的行为模型。这尤其适用于模拟空战训练的应用、任务规划以及新战术和战略的开发。
B. 加强对多智能体机器学习与合作的关注
战斗机飞行员并不是单独行动的,但研究领域却主要关注单个智能体的行为。多智能体方法在捕捉战术依赖性和智能体之间互动方面的有效性表明,有必要加强这一领域的研究。今后的研究应深入探讨智能体之间的合作行为,强调编队、目标协调和防御支持。了解和模拟空战场景中团队合作与协作的复杂性将有助于获得更逼真的空战体验。
C. 利用分层行为模型
采用分层结构将复杂的空战场景分解为更小、更易于管理的子问题,是未来研究的一个有前途的方向。此外,分层决策过程可使原本错综复杂的政策变得连贯一致。从目前的文献中可以看出,指导防御性和攻击性子策略的高层策略可以扩展和完善,以应对更广泛的任务,最终提高行为模型在所有上述应用中的通用性和适应性。
D. 标准化与合作倡议
考虑到仿真系统目前缺乏标准化和基准,研究人员将从积极参与 “非凡挑战 ”等合作计划中获益。建立共同的测试平台和标准化环境与场景有利于不同行为模型之间的交叉比较,并确保一个研究项目的进展可以在其他项目中应用和测试。这种合作方法能加快进度,有助于为空战应用开发更强大、更普遍适用的基于机器学习的行为模型。