《基于动机的战术空对空训练和通用架构下机器学习的计算机生成部队（CGF）建模》

荷兰的 "智能强盗"（Smart Bandits）项目旨在开发计算机生成部队（CGF），展示逼真的战术行为，从而提高战斗机飞行员模拟训练的价值。虽然该项目的重点是展示空对空任务中的对抗行为，但其成果在模拟领域的应用更为广泛。

传统的 CGF 行为受脚本控制，脚本规定了特定事件发生时的预定行动。脚本的使用存在一些缺陷，例如，在考虑整个任务场景时，脚本的复杂性较高，而且脚本化的 CGF 往往会表现出僵化和不切实际的行为。为了克服这些缺点，需要更复杂的人类行为模型，并结合最先进的人工智能（AI）技术。智能强盗项目探索了应用这些人工智能技术的可能性。

本文介绍了在理论行为模型与用于战斗机训练的 CGF 实际应用之间架起桥梁的主要架构。测试 CGF 的训练环境由四台联网的 F-16 战斗机模拟器组成。这种设置能够为飞行员提供与敌方战斗机编队（以智能 CGF 的形式）作战的实验性训练。该架构具有通用性，可以满足各种人类行为模型的需要，这些模型在人工智能技术的使用、认知的内部表示以及学习能力等方面都存在概念上的差异。基于认知理论（如态势感知理论、心智理论、直觉和惊讶）的行为模型和基于机器学习技术的行为模型实际上都嵌入了该架构。

在模拟器中对战斗机飞行员进行战术训练已得到广泛应用。战术训练的一个基本特征是除受训者外还有其他参与者。这些参与者可以是队友（如编队中的其他战斗机）、支援部队（如前方空中管制员）、中立部队（如平民）或敌方部队（如对手战斗机）。在模拟中，这些参与者的角色可以由人类、半自动化部队（SAF）或 CGF 来扮演。半自动化部队具有执行与角色相关任务的某些功能，例如一个人可以控制多个虚拟实体。然而，使用人类专家参与战术模拟可能既不符合成本效益，在操作上也不有效。首先，这些人类参与者是昂贵的资产。其次，由于模拟的目的并不是为他们提供培训，他们可以用在其他地方。因此，由 CGF 来扮演这些角色更为有效，只要这些 CGF 能够以适当的方式扮演这些角色。

然而，目前最先进的 CGF 由于其行为简单，在许多情况下并不能满足战术训练的目的。除了上述的 SAF 外，CGF 行为还可分为四类（Roessingh、Merk & Montijn，2011 年）：

无反应行为，即 CGF 按照预先确定的行动顺序行事，对环境的观察和反应能力极低；例如，这种 CGF 能够按照航点确定的路线行驶。

2）刺激-反应（S-R）行为，即 CGF 在对来自环境的特定刺激或输入做出反应时，始终表现出一致的行为；例如，当可以持续观察飞机位置时，这种 CGF 能够拦截飞机。

延迟响应（DR）行为，在这种行为中，CGF 不仅要考虑当前环境中的一组刺激，还要考虑存储在 CGF 记忆中的以前时刻的刺激。这样的 CGF 可以通过记忆以前的位置来拦截飞机，即使无法持续观察到这架飞机。
基于动机的行为，这种 CGF 结合了 S-R 和 DR 行为，但还考虑了其动机状态。这些动机状态是内部过程的结果，可能代表目标、假设、期望、生物和情感状态。例如，这样的 CGF 可以假设目标飞机燃料不足，将返回基地。因此，CGF 可能决定放弃拦截。另一种情况是，飞行情报组可能预计飞机会改变航线，并决定在更有利的位置拦截飞机。

迄今为止，CGF 的一个特征尚未纳入讨论范围，那就是学习行为或适应行为（Russell 和 Norvig，2003 年）。CGF 的行为表现可以是 S-R、DR 或基于动机的行为，可以在机器学习（ML）的基础上进行扩展，使其具有适应这种行为的能力。通过 ML 技术，可以开发出更适合受训者专长的 CGF。此外，ML 技术还能避免费力地制定一套规则（例如 "if-then 规则"），这些规则需要针对每个要解决的具体问题或情况进行推导，而推导的基础是对操作专业知识的人工诱导，这些专业知识在很大程度上是隐含的，不能简单地用逻辑规则来解释。

本文旨在说明智能匪帮项目（2010-2013 年）中智能 CGF 的开发情况。该项目旨在为模拟任务场景中出现的 CGF 植入类似人类的智能。荷兰国家航空航天实验室（NLR）和荷兰皇家空军（RNLAF）希望通过 "智能强盗 "项目在模拟战术战斗机飞行员训练领域迈出重要一步。本文的中心思想是，认知建模是在 CGF 中创建基于动机的行为的有力手段。然而，为了减少认知建模的缺点，我们提倡额外使用多重学习技术。这些技术对于减少在复杂领域开发智能体时的知识汲取工作至关重要。我们展示了如何将不同的方法结合到混合模型中。

成为VIP会员查看完整内容