摘要

荷兰的Smart Bandits项目旨在开发显示真实战术行为的计算机生成部队（CGF），以提高战斗机飞行员模拟训练的价值。尽管重点在于展示空对空任务中的对抗行为，但其结果更广泛地适用于模拟领域。

传统上，CGF的行为是由脚本控制的，这些脚本规定了在一组特定事件中的预定行动。脚本的使用有一定的缺陷，例如，在考虑完整的任务场景时，脚本的复杂性很高，而且脚本的CGF往往表现出僵硬和不现实的行为。为了克服这些缺点，需要更复杂的人类行为模型，并结合最先进的人工智能（AI）技术。Smart Bandits项目探讨了应用这些人工智能技术的可能性。

本文解释了在理论行为模型和用于战斗机训练的CGF中的实际实施之间架起桥梁的主要架构。测试CGF的训练环境包括四个联网的F-16战斗机模拟器。这种设置能够为飞行员提供实验性训练，以对抗敌人的战斗机编队（以智能CGF的形式）。该架构是通用的，因为它可以满足各种人类行为模型，在概念上，它们在使用人工智能技术、认知的内部表示和学习能力方面彼此不同。基于认知理论的行为模型（例如，基于情境意识、心智理论、直觉和惊讶的理论）和基于机器学习技术的行为模型实际上都嵌入到这个架构中。

1.0 引言

战斗机飞行员在模拟器中的战术训练已经被广泛使用。战术训练的一个基本特征是除了受训者之外，还有其他参与者的存在。这些参与者可以是队友，如编队中的其他战斗机，支持力量，如前方空中管制员，中立力量，如平民，或敌方力量，如对手的战斗机。在模拟中，这些参与者的角色可以由人类、半自动化部队（SAFs）或CGFs来完成。半自动部队有一些执行角色相关任务的功能，例如，多个虚拟实体可以由一个人控制。然而，使用人类专家参与战术模拟可能既不符合成本效益，也不具有操作性。首先，这些人类参与者是昂贵的资产。其次，由于模拟的目的不是为他们提供训练，他们可以在其他地方使用。因此，由CGF来扮演这些角色更为有效，只要这些CGF有能力以适当的方式扮演这些角色。

然而，目前最先进的CGFs在许多情况下并不能满足战术训练的需要，因为它们的行为很简单。除了前面提到的SAFs，可以区分四类CGF-行为（Roessingh, Merk & Montijn, 2011）。

1）非反应性行为，在这种情况下，CGF根据预先确定的行动序列行事，对环境的观察或反应能力最小；例如，这种CGF能够遵循由航点定义的路线。

2）刺激-反应（S-R）行为，在这种行为中，CGF对来自环境的某一组刺激或输入的反应，总是表现出一致的行为；例如，这样的CGF能够在能够连续观察到飞机位置时拦截飞机。

3）延迟反应（DR）行为，在这种情况下，CGF不仅考虑到当前环境中的一组刺激，而且还考虑到以前的刺激，这些刺激存储在CGF的存储器中。这样的CGF通过记忆以前的位置，能够拦截一架飞机，即使这架飞机不能被连续观察到。

4）基于动机的行为，这种CGF结合了S-R和DR行为，但另外考虑到其动机状态。这些动机状态是内部过程的结果，可以代表目标、假设、期望、生物和情感状态。例如，这样一个CGF可以假设，一架目标飞机的燃料不足，它将返回基地。因此，CGF可能决定放弃拦截。或者，CGF可能预计到飞机的路线改变，并决定在一个更有利的位置拦截飞机。

到目前为止，CGF的一个特点没有被纳入讨论，那就是学习行为或适应行为（在Russell和Norvig, 2003的意义上）。表现出S-R、DR或基于动机的行为的CGF，可以在机器学习（ML）的基础上扩展适应这种行为的能力。ML技术使CGF的发展能够更好地适应受训者的专业知识。此外，ML技术还可以防止为每个要解决的具体问题或情况制定一套艰苦的规则（例如 "如果-那么规则"），这些规则是基于对业务知识的人工启发，而这些知识在很大程度上是隐性的，不能简单地用逻辑规则来解释。

本文的目标是说明在 "智能强盗 "项目（2010-2013年）中开发智能CGFs。该项目旨在将类似人类的智能植入模拟任务场景中出现的CGF中。通过Smart Bandits项目，荷兰国家航空航天实验室（NLR）和荷兰皇家空军（RNLAF）的目标是在模拟战术战斗机飞行员训练领域迈出重要一步。本文的核心信息是，认知模型是在CGF中创造基于动机的行为的有力手段。然而，为了减轻认知建模的缺点，我们主张额外使用ML技术。这些技术对于减少开发在复杂领域中行动的代理的知识诱导工作至关重要。它展示了如何将不同的方法组合成混合模型。

2.0 基于动机的行为建模

2.1 智能强盗模型

产生智能行为的一种方法是认知建模。在这种方法中，计算模型被设计来模拟人类的认知。在Smart Bandits项目中，到目前为止已经设计了三个认知模型：一个自然的决策模型，一个惊喜生成模型和一个情况意识模型。所有这三个模型都是利用空战领域的抽象场景进行评估的。

2.1.1 自然主义决策

由于决策是产生任何智能行为的关键部分，在项目的早期就开发了一个自然决策模型。该模型的灵感来自于达马西奥的体细胞标记假说。躯体标记假说提供了一种决策理论，该理论将体验到的情感作为决策的直觉部分发挥了核心作用，同时将这种直觉部分与理性推理相结合，形成一个两阶段的决策过程。Hoogendoorn, Merk & Treur (2009)对这个模型进行了描述。

2.1.2 惊奇的产生

惊讶被认为是人类对意外情况的普遍体验的认知反应，对行为有可识别的影响。然而，在CGF的研究中，很少有人关注惊讶现象，很少有CGF有类似人类的机制来产生惊讶强度和惊讶行为。这就导致了CGF在人类会做出惊讶反应的情况下，其行为是贫乏的和不现实的。对于空战来说，这形成了一个问题，因为许多军事专家认为惊讶因素是军事行动的一个重要因素。

出于这个原因，我们开发了一个产生惊讶强度及其对行为影响的模型（Merk, 2010）。该模型是基于各种理论和对人类惊讶行为的认知研究的经验结果。除了情境的意外性，其他的认知因素，如情境的新颖性也被考虑在内。

2.1.3 情境意识

有效决策的一个重要因素是情景意识（Situation Awareness，SA）。SA在工作领域尤其重要，在那里信息流可能相当大，错误的决定可能导致严重的后果。为此，我们根据Endsley（1995）的SA的三个层次设计了一个模型：（1）对线索的感知，（2）对信息的理解和整合，（3）对未来事件的信息投射。

在Smart Bandits中用于智能CGF的基本SA模型（见Hoogendoorn, van Lambalgen & Treur, 2011）包括五个部分。(1）观察，（2/3）对当前情况的信念形成，（4）对未来情况的信念形成和（5）心理模型。对当前情况和未来情况的信念通过阈值函数被激活（接收一个激活值），这是一种从神经学领域采用的技术。图1中的SA模型代表了用于形成信念的领域的知识。人类使用专门的心理模型，这些模型代表了各种观察和关于环境的信念形成之间的关系，反过来，这些模型又指导了要进行的进一步观察。

图1：情况意识的认知模型：概述

另一个重要的方面是在苛刻的环境下可能出现的SA的退化。当时间有限时，感知和线索的整合会受到影响，导致对环境的不完整了解。此外，由于工作记忆的限制，人类并不总是能够进行所有必要的观察。根据可用时间的多少，可以通过考虑不太活跃的信念来进一步完善对情况的了解。这些特点反映在智能CGF的行为中。上述模型的详细描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。

3.0 机器学习

3.1 强化学习

机器学习技术的一个常见区别是监督学习和无监督学习（例如Russel和Norvig，2003）。在监督学习中，在每次试验后，代理人会得到与他应该采取行动的输入演示（也称为输入实例）相匹配的反应。实际反应和预期反应之间的差异被用来训练代理，就像培训师或监督员让学生意识到预期反应一样。例如，代理人可以通过向其展示正确的反应来学习飞行动作。在无监督学习中，代理只是被告知输入的例子。代理人必须在所提供的例子中找到隐藏的结构。由于给代理的例子没有伴随着反应，所以没有差异信号来训练代理。例如，代理可以学习区分友军和敌军的战术。

强化学习具有上述两种学习技术的要素。代理人在每次试验后不是被告知正确的反应，而是在每次试验的执行过程中收到来自环境的反馈。虽然反馈不一定代表每个单独行动的正确反应，但该学习技术的目的是为整个试验提供汇总反馈，从而平均强化正确反应。然而，这并不能保证收敛到正确的反应。强化学习的技术实现在Sutton & Barto (1998)中有所解释。

强化学习特别适合代理在模拟环境中的应用，因为在这种环境中，代理能够探索环境，从而可以评估大量成功和不成功的反应。另外，在复杂的环境中，所需的反应，如最佳的对手交战战术，往往是未知的。强化学习提供了一种技术，通过每次试验来改进反应，从而发现更好的战术。

强化学习的一个普遍问题是，它需要大量的内存来存储中间计算值（反应与代理在其环境中的状态相结合，如其位置、速度和方向）。在现实的战术环境中，这实际上转化为无限量的反应-状态组合（"状态-行动空间"）。在Smart Bandits项目中，模拟了两架友军飞机和两架敌军飞机之间的空对空交战，后两者由学习型代理人代表。在这些交战中，学习型代理只能以四种方式做出反应（左、右、前和射击）。在这个例子中，我们将状态-动作空间存储在一个表格中，在可接受的学习试验数量之后，它需要2千兆字节的内存。这种内存需求随着额外参数的增加而呈指数级增长。惊人的内存需求可以通过对状态-动作-空间的近似来减少，而不是保留所有的精确值。近似一个大的状态动作空间的方法是使用神经网络（NN），这将在下一节解释。

3.2 强化学习与神经网络

在一般意义上，NN（Haykin，1998）可以被认为是一个可以模拟任何数学函数的网络。在这种情况下，我们使用NN来近似上述的状态-动作空间。NN的输入是代理人在其环境中的当前状态。NN的输出是代理的每个可能行动的值。NN的输出是在RL算法产生的数据基础上进行优化的。RL算法的数据不需要再被存储。事实上，NN是用RL算法产生的数据来训练的。以前我们需要2千兆字节的内存来解决一个相对简单的空对空问题，现在我们只需要大约10千兆字节的数据来存储这个问题的NN知识。这种知识是由NN的权重值表示的。而且，内存需求不再随着问题的复杂性呈指数增长，而只是呈线性增长。为此，可以使用相对简单的前馈型NN，而不是递归型NN。然而，我们发现有两个原因要为需要在复杂战术场景中行动的代理类型开发替代的ML技术。

1）与一些领域不同，如解决象棋等游戏中的问题，其中最佳的下一步行动完全由世界的当前状态决定，而解决战术问题的特点是需要使用以前的世界状态。例如，一个空对空的对手可能会消失一段时间，并可能在不同的位置突然出现，代理人必须考虑到这一点。换句话说，战术问题的特点是对环境的不完善或不完全了解1。众所周知，RL技术对这些类型的问题并不太健壮，当面对更复杂的问题时，我们确实经历了与我们的代理人的正确反应相背离的情况。

2）一些现实的战术问题需要在当前的决策中考虑到对以前状态的记忆。正因为如此，基于RL的代理不能很好地适用于现实的战术问题。对于需要延迟反应行为或基于动机的行为的应用（见第1章），RL可能不是首选技术。

对于空对空领域的更高级问题，下一节将研究进化技术作为RL的替代品。

3.3 进化技术和神经网络

人工自主系统被期望在动态、复杂的环境中生存和运行。在这样的环境中，代理人的具体能力是很难事先预测的，更不用说详细说明了。自主系统的人工进化使代理人能够在复杂的动态环境中优化他们的行为，而不需要使用领域专家的详细先验知识。RL技术假定问题的解决方案具有马尔科夫特性（见前面的脚注），而进化技术（Bäck, Fogel, Michalewicz, 1997）不受这种约束，适用于更大的问题集。

进化技术使用一个迭代过程，在一个解决方案的群体中搜索适配性景观，在这种情况下，就是战术问题的解决方案。种群中更成功的实例在有指导的2次随机搜索中被选择，使用平行处理来实现期望的解决方案。这种过程通常受到生物进化机制的启发，如突变和交叉。许多进化技术的实验使用神经网络来控制代理。神经网络提供了一个平滑的搜索空间，对噪声具有鲁棒性，提供了概括性并允许扩展（见Nolfi和Floreano, 2000）。此外，网络结构可以被进化或优化以允许延迟响应行为。这些特性与优化网络的进化方法相结合，为复杂、动态领域提供了一个有趣的研究领域。作为一个例子，我们可以使用智能强盗的进化技术更新SA模型（见第2.3节）的连接强度的权重。

由于像SA模型这样的认知模型通常有一大套相互关联的参数，使用主题专家来确定它们的（初始）值是很麻烦的，而且是投机性的和劳动密集的。这就需要使用进化学习技术来为上述观察、简单信念、复杂信念和未来信念之间的联系确定适当的权重。图2给出了第2.3节中提到的SA模型的网络表示的一个简化例子（取自Hoogendoorn, van Lambalgen & Treur, 2011）。

图2：情况意识的例子模型（Hoogendoorn, van Lambalgen & Treur, 2011）。

为了学习图2中网络的连接权重，我们采用了两种不同的方法（Gini, Hoogendoorn & van Lambalgen, 2011），即遗传算法应用和基于权重重要性的专门方法。后一种方法被称为 "基于敏感度 "的方法。这两种方法都利用了一个健身函数，表示一个解决方案与期望状态的符合程度。在这种情况下，可以通过实际激活水平和主题专家估计的激活水平之间的差异来衡量适合度。遗传算法的表现明显优于基于敏感性的方法。

3.5 多代理系统中ML的复杂方面

多Agent系统（MASs）属于两类中的一类：集中式或分散式控制的系统。集中式控制系统由具有一定程度自主权的代理组成，但整个系统由一个统一的战略、方法或代理控制，以实现特定的目标。然而，尽管有整体的统一策略，单个代理并不知道其他代理在做什么，所以团队策略通常在任务中的不同点与单个代理的策略相冲突。这个问题3已经成为在复杂环境中实施MAS的典型障碍。分散式系统与集中式系统不同，它的代理具有更高的自主性，但缺乏指导所有代理的预先存在的战略。它们通常有某种形式的通信系统，允许代理在探索其环境的同时制定所需的整体战略。开发能够进行空对空战术的智能CGF的挑战，直接属于MAS环境的集中式类别。因此，各个代理必须在同一环境中一起训练。然而，这使状态空间以环境中存在的代理数量的倍数膨胀。这是每个代理保持自己对环境的独特看法的结果，这种看法被记录在自己的状态空间中。然而，追求多代理的方法是有道理的，特别是在与领域有关的问题上，不同的飞行成员可能有不同的，可能有冲突的目标和不完整的情况意识。

4.0 架构

4.1 仿真环境

Smart Bandits项目中用于CGF的仿真环境是STAGE ™，这是一个场景生成和CGF软件套件。作为一个基本的场景工具，STAGE为我们提供了一定的保真度和抽象度，很适合目前考虑的战术空对空作战模拟。当需要更高的平台、传感器或武器模型的保真度时，STAGE提供的基本功能将得到扩展。这种扩展CGF环境基本功能的能力是STAGE被选为Smart Bandits的主要CGF软件套件的原因之一。

4.1.1 中间件（调解器）

传统上，代理人的刺激-反应（S-R）行为（见第1章）可以通过使用脚本和/或基本条件语句在CGF软件中实现。结合这些简单的构件，通常可以为CGF行为提供一定程度的可信度，这对于许多模拟培训练习来说可能是足够的。然而，对于更高级的问题和相关的代理行为，包括学习行为，如第2和第3节所述，这种方法将是不够的。正如前几节所论述的那样，存在着大量的技术用于发展CGF行为和在模拟环境中控制CGF。一个标准的CGF平台并不能满足实现这些不同的技术。

为了将STAGE作为Smart Bandits中的CGF平台，同时将CGF的控制权委托给外部软件（即使用选择的编程语言构建的特定软件），我们开发了一个接口，外部软件可以通过该接口接收来自STAGE中任何CGF的观察结果，并可以命令CGF在仿真环境中执行操作。这个中间件层（图3中所谓的调解器）通过特定的协议（nCom，Presagis专有）与STAGE进行实时通信，可以向不同的代理（可能分布在不同的计算机上）发送和接收上述的观察和行动。为了与调解器通信，外部软件使用一个特定的接口，该接口定义在一个库中，可以很容易地链接到软件中，例如用Java或C++。

图 3：将智能代理纳入商用现成 CGF 包（STAGE™）的架构，智能代理可以使用 C++ 或 Java 接口，通过调解器与 STAGE 通信。

5.0 结论与讨论

本文介绍了一种认知建模的技术和各种机器学习技术。不幸的是，似乎没有一种单一的技术来解决从事空对空任务的智能CGF的所有突发战术问题。

认知模型是在CGF中创造基于动机的行为的有力手段。然而，为了减轻认知模型的缺点，我们主张额外使用机器学习技术。机器学习技术对于减少在复杂领域中行动的CGFs的开发的知识诱导工作至关重要。本文建议将不同的方法组合成混合模型。

这里提出的主要架构的目标有三个方面：

将智能CGF模型与战术战斗机模拟脱钩。
促进人类行为模型与上述模拟的连接过程。
使得智能CGF模型能够在不同的客户端进行分配。

这三个特点共同促成了对混合方法的追求。

在Smart Bandits项目中，智能CGF的行为和设计必须适应手头的战术训练目标。在本文中，我们没有明确地处理训练要求。然而，在本文中，我们隐含着这样的假设：作战战斗机飞行员的战术训练所需的CGF行为包括以下方面：使人类对手吃惊的能力，看似随机的行为，即不重复的反应，以及从武器平台的角度来看是真实的。到目前为止，已经创建的智能CGF将在未来的项目阶段（2012/2013）根据训练要求进行验证。因此，在 "智能土匪 "项目中，未来工作的两个主要项目是：