中文版《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

本文研究了以数据驱动的方式创建军事决策行为模型的可能性。由于实际作战行动的数据不多，而且在军事背景下不容易创建数据，因此大多数方法都使用模拟器来学习行为。然而，模拟器并不总是可用的，或者很难创建。本研究的重点是通过在实地演习中收集的数据创建行为模型。由于数据通常是有限的、有噪音的和错误的，这使得创建真实的模型具有挑战性。除了使用基于数据手工制作模型的传统方法外，我们还调查了新兴的模仿学习研究领域。其技术之一，奖励工程，被应用于学习城市战争行动中士兵的行为。我们学习了基本的、但现实的士兵行为，这为将来建立更复杂的模型打下了基础。

【关键词】行为, 模型, 模仿学习, 仿真, 军事数据

I. 为什么需要行为模型？怎样创建行为模型？

在教育、培训、分析和决策支持中越来越多地使用模拟仿真，这导致了对军事决策行为模型的更高要求。除了需要准确模拟物理行为，如坦克运动或子弹/导弹轨迹外，还需要模拟实体或车辆的真实战术行为。这些虚拟参与者的决策过程被记录在一个行为模型中。行为模型最早是在[1]中提出的，我们将它们定义为类人、人控或自主操作的现实世界系统行为的操作、概念、心理或战术模型。

这种现实世界系统的例子可以是由指挥官指挥的坦克；由船长指挥的船舶；由飞行员驾驶的战斗机；由地面操作员控制的无人驾驶飞行器（UAV）；或人类行为者本身，例如，一个步兵。此外，我们不限制系统的大小。例如，我们也考虑将一个坦克营、一个舰队或一个无人机群作为行为模型的合适对象。在军事模拟中，当机器决定一个单位或部队的行动时，这些系统被称为计算机生成部队（CGFs）。

新行为模型的开发和应用是一个复杂的过程。由于缺乏互操作性的方法和标准，导致各种模型四分五裂，大多只在单一的仿真系统中使用。早期的工作[2]调查了在开发的哪个阶段可以实现行为模型的有效重用，以及需要哪些支持过程、技术和标准。一个结论是，人们对这一研究领域很感兴趣，工具和标准也在不断发展，AI（人工智能）及其创建性能良好模型的能力将在各种军事应用中发挥巨大作用。另一个结论是，目前对于荷兰国防部来说，在不同环境中重复使用行为模型的价值不足。与其说是重复使用模型，不如说是希望建立更加高效和有效的模型。实现这一目标的方法之一，是使用人工智能研究领域的最先进技术[3]。

在机器学习的应用中，正确和不正确的行为或决定的例子被提交给一个学习系统，希望该系统能够归纳出这些例子。这被称为监督学习[4]，它的成功取决于许多因素（例如，算法、数据的大小和类型，以及实施技术）。在军事背景下使用实际数据的一个问题是，数据可能被分类或根本无法获得，因为军事冲突的数量很少。

第二种常见的方法是在模拟器中部署行为模型，并使用生成的数据来改进模型的参数；而最常见的方法是强化学习[5]。强化学习的一个困难是，奖励函数必须精心设计，模拟器中的任何错误都可能被利用，导致学习不希望的行为[6]。这种错误可能发生在人类从未遇到的不可预见的情况下，但算法由于在数百万次的模拟中对搜索空间的探索而发生。此外，必须首先开发一个准确的模拟器，因为模拟中的错误可能被利用或导致学习不现实的行为[7]。在军事环境中，强化学习方法是困难的，但也是有希望的[8]。

对于监督学习来说，需要大量高质量的数据，对于强化学习来说，需要高质量的奖励函数和模拟器，而很多用例都存在两者都没有的情况。如果没有大量的高质量数据，或者没有能够创建这种数据的模拟器，那么人工智能领域的许多技术就不适用。在这种情况下，并不清楚哪种方法能以最少的努力获得最好的结果。因此，本研究旨在创建行为模型，以有效的方式显示真实的行为，同时拥有很少的数据和没有模拟器可用。为此，我们采用了模仿学习[9]研究领域的方法。模仿学习的重点是在师生环境中用专家的行为明确地训练模型。如果模型能够模仿老师的行为，它就正确地学会了行为。我们在研究中应用了这些技术，为在城市战争行动演习中行动的士兵和Boxer车辆创建行为模型。收集到的数据非常有限，而且没有办法创造更多的数据或能够在模拟器中测试模型。

通过这项研究，我们的目标是行为模型，它可以促进（1）创建新的训练场景，其中计算机生成部队的行为被用于创建更好的场景[10]；（2）通过将受训者产生的数据与事先用我们的方法学到的正确行为模型进行比较，支持行动后的审查；（3）将基本战斗技术的模型行为与士兵在战场上的行为进行比较。如果士兵的行为看起来更成功，这可以促使调整基本作战技术的想法；（4）为合成包装生成逼真的模拟实体行为[11，12]；（5）通过使用学到的行为为决策者提供建议，实现对指挥官提供基于模拟的决策支持。

第二节研究了创建行为模型所需的数据要求。第三节介绍了本研究的用例。第四节介绍了手工制作模型的传统方法。我们在第五节中介绍了模仿学习这一新兴领域的背景信息，并在第六节中介绍了其在本用例中的应用。最后，第七节提供了结论性意见。

II. 获得正确的数据

为了创建有效的行为模型，我们必须了解在什么情况下，用什么情报和什么命令来记录行为。行为数据和模型必须与决策过程相匹配。因此，在开始检索数据之前，我们首先要了解军事决策过程。

A. 军事专家如何作出决策？

在军事环境中做出任何决策之前，必须先了解情况。通过分析所有可用的信息，就能建立起态势感知（SA）[13, 14]。在军事术语中，SA是指挥官对战场的理解[15]。SA可以分为三个层次[16]。第一个层次是对当前局势要素的感知，例如，了解自己和敌人部队的位置和状态。第二是对局势的理解。通过了解局势中的物理元素和人员的动态，可以对局势进行解释。例如，一架敌机是在攻击飞行路线上还是在执行侦察任务。第三个层次是对局势的未来状态的预测，例如，如果不拦截，敌机将向航母运送危险的有效载荷。只有达到高水平的SA，才能做出有效的决策[17]。有了足够的经验，可以在一瞬间做出决定，因为情况被即时识别。这些被称为识别激励决策[18]，本质上是数据驱动的（经验）心理行为模型。提高指挥官的安全意识的技术，有助于更好地做出决策[19]。

当情况变得复杂时，为了不忽略重要的信息，要遵循系统的方法。这种过程的一个例子是军事决策过程（MDMP）[20]。这是一个漫长的过程，不适合在战场上几分钟或几秒钟内做出决策。另一个例子是北约综合行动指令（NATO COPD）[21]。在所有这些情况下，都要详细研究环境信息以获得SA，只有在获得足够的SA后才会做出决策。我们将行为区分为四个层次：在（1）战略层面上，决策是基于（多）国家目标做出的。在(2)战役层面上，决策是为了开展大型行动而作出的。

根据当前的行为水平，所考虑的信息量也不同，决策的速度也不同。尽管行为模型可用于从瞬间决策到大型规划环节的任何级别的行为，但我们在本文中将范围限制在战术行为上。

B. 如何使用行为模型进行决策？

就其本质而言，行为模型在做决定时遵循与人类相同的步骤。一个突出的框架是OODA循环[22]。这个循环的四个阶段是观察、定位、决定和行动。观察和定向阶段的唯一目的是获得安全保障。这个军事模型已经成功地应用于各种自主代理[23]，并被应用于大量的情况[24, 25, 26]。

第二个框架被称为BDI：信念、欲望和意图[27, 28]。基本的BDI范式被广泛用于在基于代理的方法中实现类似人类的智能，但往往达不到真正的 "智能代理"，因为代理缺乏 "协调和学习"等理想特征[25]。BDI在[29]中得到了扩展，现在被广泛用于实践中。BDI可以用于OODA循环步骤中，并且通常被应用于定向和决策步骤中[30]。

在这两种情况下，模型的创建者决定世界的哪些相关因素被包括在所谓的世界模型中，以及这些因素如何被允许相互作用。如果互动是严格定义的，那么就会使用一个更经典的方法，如规则引擎或决策树。如果不能创建足够明确的模型，那么机器可以接受任务，根据数据学习各因素的相关性（例如，用神经网络）。在所有情况下，如果一个因素被遗漏了，要么是模型设计者没有包括它的定义，要么是排除了相关的数据，那么模型就不可能考虑到它。因此，模型的性能与创造者对问题的洞察力息息相关。

在仔细设计、调整或学习模型之后，模型的使用就很简单了。设计的因素输入到模型中，并通过预先设计或学习的步骤进行转换，以产生所需的输出。由于设计、调整和学习的方法和组合的数量是巨大的，因此出现了各种研究学科，专注于高效创建模型的研究领域。许多这些研究领域需要数据来创建行为模型。

C. 获取有用的数据

当谈到军事数据时，首先想到的是分类和分享数据的限制[31]。由于信息的分类级别通常是受限制的，例如国家或北约的级别，可以获得的数据量是有限的。这意味着，任何研究都取决于是否有适当的许可，以及是否在数据供应界（通常是国防部）内有适当的联系。在获得接收数据的许可之前，人们必须知道并确定需要什么样的数据。

创建行为模型的最佳数据来自于实际的战斗行动。然而，从实际作战行动中记录的数据并不多，而且记录的数据往往不能用于创建行为模型。为研究目的生成数据是不可行的，因为这需要与敌对势力交战。使用历史数据也是有问题的，因为军事技术和理论变化很快，所需背景的数据并不存在。

一个合理的方法是使用在训练和演习中收集的数据。这样的训练可以是(1)在模拟环境中执行，使用建设性的模拟，如VR部队，它可以模拟许多规模的部队[32]，或者(2)在现场与实际士兵一起执行。使用实际数据的承诺是，可以创建行为模型，而不需要创建（复杂的）模拟器来促进训练。在这项研究中，我们希望能实现这一承诺，尽管使用原始数据会带来各种问题，如噪音和缺失的背景。如第三节所述，我们选择了移动作战训练中心的一次演习作为使用案例。

III. 用例：使用移动作战训练中心的城市战争

移动作战训练中心（MCTC）[33]于2003年由荷兰国防部引进，使士兵能够在真实的环境中练习作战，但不使用弹药。激光器和传感器被用来模拟发射武器。该系统跟踪士兵和车辆的位置、使用的弹药和健康状况。各种武器（如步枪、重机枪、间接射击）、车辆（如Fennek、Boxer）和地形（如越野、城市）都可以纳入演习。系统产生的所有数据都被记录下来，以便在行动后的审查中使用。图1显示了一名使用MCTC训练的士兵。注意头盔上的激光传感器在士兵被击中时进行记录，而枪上的激光则用于射击对方的部队。

图1：一名士兵在MCTC中训练[35］

我们选择了一个在荷兰训练村Marnehuizen进行的演习，该村完全是为了训练城市地形上的军事行动而建造的[34]。图2显示了该村的概况。在选定的演习中，蓝方部队从东北部的桥上进入村庄，任务是清除村庄中的敌军。一场挨家挨户的战斗持续了两天，直到村子西侧的最后一栋房子被宣布没有敌人。

图2：荷兰Marnehuizen的城市环境中军事行动训练场的地形图。(右图)解析过的地形图，半自动地从左图中得出[34]。

记录的MCTC数据包含士兵和车辆的定期位置。此外，数据中还包括射击事件、命中事件、杀伤事件和车辆关联（当士兵进入或离开车辆时）。这些数据可以让训练员对战场的当前状态有一个大致的了解。数据的一致性在几个方面有所欠缺。士兵的位置每15秒才提供一次，而且是在网格上的一个单元中（单元大小大约为1米×1米）。士兵的方向没有被报告。有时士兵会同时移动几个网格单元，例如车辆快速行驶时。也并不总是清楚一个士兵是在建筑物内还是在建筑物外，因为建筑物的墙可能穿过这样一个网格单元的中心。其他的局限性包括，并不总是清楚士兵在向什么地方开火，而且（未）登上车辆的不确定性很大。这些局限性对于获得数据所针对的行动状态的粗略概述来说不是问题，但对于训练模型来说确实是一个额外的障碍。

V. 手工制作的行为模型

提高军事行为模型真实性的一个直接方法是手动创建模型的结构，并根据收集的数据调整其参数。通过这种方式，专家保持对模型所能学习的内容控制，并且参数的调整应该很容易执行。创建的模型可以被看作是一种将数据与专家知识相结合的方法。该模型最常反映的是当前学说中明确定义的战术或行为，如边界超视距[36, 37]。然而，在这样的方法中，模型永远不会比它的创造者更聪明，因为在人造的结构中不存在创造力的空间。当更多的自由被赋予算法时，可以观察到更多的创造力，甚至可以超过人类的表现[38, 39]。然而，手工制作的模型确实有一个优势，那就是对军事专家来说非常容易理解和解释，因为该模型的结构与专家的决策过程非常相似。例如，这样的模型可以通过比较从数据中产生的模型和正确行为的模型来用于行动后的审查，从而帮助只有有限时间分析训练中所有数据的训练教官向受训者介绍情况。模型参数的巨大差异是学习点的指标。

在这一节中，我们想说明如何用Marnehuizen军事演习的数据来创建和调整手工制作的行为模型。确定的用例是一辆Boxer车的行为，它为进行挨家挨户作战的士兵提供火力支援。该车被召唤到建筑物中，提供压制性火力，并撤退，以便在很长一段时间内不容易受到反装甲弹药的影响。这种行为的示意图见图3。

图3：Boxer车提供的火力支援示意图。(1) 左上角：Boxer手的初始位置用红色表示，一个步兵小组用蓝色表示。(2) 右上角：Boxer车辆接近右下角的建筑物并提供火力压制。(3) 左下角：步兵接近建筑物。(4) 右下角：Boxer的车辆撤退。

图3中显示的行为必须被抽象成一个模型。在这项研究中，我们纯粹考虑时间方面。其他方面，如Boxer和步兵之间的相对位置，或Boxer和建筑物之间的相对位置，则留待今后的工作。我们对五个步骤进行了区分：

1.Boxer进入射击位置所需的时间。
2.在步兵开始移动之前，Boxer提供压制火力的时间。
3.步兵移动到建筑物所需的时间。
4.步兵到达建筑物和Boxer出发之间的时间间隔。
5.清理建筑物并从步骤1重新开始所需的时间。

在这项研究中，我们重点关注步骤2和3。为了确定这些参数，必须知道Boxer和步兵何时到达建筑物。其他参数可以用下面描述的类似方法得出。在练习中，如图3所示，要接近几座建筑物，可以对这一程序的每一次迭代进行分析。根据Boxer车辆和步兵小组的位置，对建筑物的位置以及这种迭代的开始和结束时间进行注释，是手工完成的，这已经是一项具有挑战性的任务。由于有多辆车，第一个问题是：哪辆Boxer目前正在提供压制火力？这辆Boxer是否真的在向选定的建筑物开火？射击事件是数据集的一部分，但是当射击没有与命中事件相联系时，就不知道射击的方向是什么。特别是在压制火力的情况下，大多数的射击都没有击中任何可以记录射击方向的传感器。这就使得人们猜测Boxer是在对建筑物进行压制射击，还是在对其他东西进行射击。另外，步兵群的移动也不是微不足道的。从一个建筑到另一个建筑的小组并没有被定义为战斗顺序（Orbat）中的小组：他们是在现场从排（Orbat中定义的）的可用士兵中挑选出来的，并在每次迭代中进行改变。为了能够衡量任何必须学习（一组）士兵和辅助车辆行为的算法的有效性，数据集通过选择提供火力支援的Boxer车辆和步兵清理建筑物的时间段进行了人工注释。

从算法的角度来看，我们把Boxer到达现场提供火力支援的时刻定义为车辆离建筑物最近的时间段。图4显示了Boxer车辆的距离如何随时间变化的例子。演习开始时的大峰值是因为Boxer在没有积极参与的情况下停在一个大的距离上。

图4：随着时间的推移（X轴），Boxer（Y轴，以英里为单位）与目标建筑的距离。

Boxer车辆到建筑物的最小距离被选为火力支援的开始。这个衡量标准可能是有问题的，因为在建筑物被清理后驶过可能会进一步减少距离，但这是一个直接的计算方法。图5显示了计算出的事件和人工注释的事件之间的绝对差异，以分钟为单位。在最坏的情况下，该算法的错误超过600分钟。由于演习需要两天时间，而且晚上没有运动，在错误的一天选择一个时刻就会产生很大的误差。可以得出结论，这种检测Boxer何时提供火力支援的方法并不十分准确。

图5：通过选择 Boxer 到建筑物的最近距离，以分钟为单位测量与手动注释事件的差异。每栋楼都是单独的一列，各列已按误差排序（即第1列的建筑物误差最大，第25列的楼房是误差最小的建筑物）

对于检测步兵何时在清理建筑物，可以采取稍微不同的方法。由于在演习过程中，清理建筑物的士兵小组会被定期洗牌，我们必须在数据中找到哪些（子）士兵小组实际上正在清理哪座建筑物。为此，我们把清场的时刻定义为X个士兵在距离建筑物Y米范围内的时刻，而X和Y的参数应该被仔细选择。请注意，蓝军的任何X名士兵，无论他们在战斗顺序中的分配如何，都足以触发这一条件。对于每个建筑，不同的士兵可以触发该条件。参数X和Y可以通过使用提供的数据来选择，如表1所示。通过选择5名士兵在建筑物15米半径范围内的时间戳，可以获得最佳效果。图6显示了每个建筑物在这种设置下获得的误差。

表1 在不同的士兵人数和距离参数下，检测到士兵清理建筑物的时间与人工标注的时间戳的平均差异。(x)表示在该设置下，有x次没有检测到建筑物的清场，因为在演习中没有出现所需数量的士兵足够接近建筑物的情况。这个数字代表了演习中26座建筑物的平均误差。

图6：与手动注释事件的差异，以分钟为单位，选择 5 名士兵，建筑半径为 15 米。每栋楼都是一个单独的列，并且列已经按错误排序（即第 1 列中的建筑物错误最高，第 25 列的建筑物是错误最低的）

本节表明，用军事数据调整专家模型是可能的，但并不容易。主要的挑战是，在记录数据的行为层面和我们试图建立模型的层面之间存在着不匹配（见第二节A）。数据是在技术层面上记录的（例如，在不知道射击方向的情况下开枪），而我们试图模拟的决策是在战术层面上（例如，清除建筑物）。如果数据能在战术层面上创建（例如，清除建筑物的时间戳），以及更精确和一致，专家模型就能更容易地创建。在数据采集步骤中，用战术信息自动充实技术层面的数据，这本身就是一个具有挑战性的课题。我们现在已经创建了两个模型，为Boxer的火力支援理论做出了贡献（见图3）。为了完成Boxer的理论，还需要几个模型，但由于很难从军事数据中创建专家模型，我们决定研究一种完全不同的方法：模仿学习。

V. 模仿学习

模仿学习技术试图模仿人类在特定任务中的行为[9, 40]。这些技术属于更广泛的观察性学习范畴。在一般的观察性学习中，原始行为不一定是由愿意或知道的参与者创造的[41]。模仿学习可以被看作是观察学习的一个特例，学习的目的是在相同的情况下再现与原行为完全相同的动作，以及展现以前未见过情况的逼真行为。模仿学习与示范学习密切相关，在示范学习中，人有目的地示范如何执行任务，以使代理执行同样的任务[42, 43]。从示范中学习这一术语经常被用于机器人技术[44, 45, 46, 47]。

除了在机器人领域的广泛应用外，模仿学习也被应用于模拟器和游戏。玩家的行为可以通过这种方式被轻易地记录下来，模拟器或游戏可以被用于训练目的[48, 49, 50, 51]。一些应用侧重于模仿玩家的确切行为，以便将学到的行为用于其他目的。例如，在[52]中，玩家在赛道上的行为被学习，这样新的赛道就可以使用模型进行测试，而不是由人类游戏测试员进行测试。其他工作的重点是利用人类的例子来创造超人类的表现[53, 54, 55]。

模仿学习大致可以归为三类。(1) 在最基本的形式中，人们有一个标记的状态集。这些标签是人类在给定状态下选择的行动。现在，这个问题可以被当作一个有监督的学习任务来处理，类似于分类任务。这种方法被称为行为克隆[47]。行为克隆不需要访问一个模拟器。(2) 当一个人确实有机会接触到模拟器，因此也有机会接触到状态转换内核时，我们说的是直接策略学习[50]。在这个类别中，我们知道行为人在每个状态下的可用行动是什么，并且可以学习一个过渡策略。过渡策略在所有可用的行动中选择最理想的行动。(3) 当人们对学习人类在评估未来状态时使用的状态属性值权重感兴趣时，我们说的是反强化学习[56]。这些方法通常使用过渡核来观察可能的未来状态，以便创建一个类似于人类演示者偏好状态的可解释评价函数。

手工制作的模型和模仿学习的主要区别在于算法在正确再现行为方面的自由度。在提供火力支援的Boxer的手工模型中，我们选择距离是决定当前提供火力支援的最有辨识度的因素。唯一需要调整的参数是距离阈值。在模仿学习的环境中，算法被提供了所有的状态信息，并被给予自由来决定最相关的特征是什么。这种方法在很难手动创建合适的模型领域中特别成功[57]。

VI. 模仿军事专家

模仿学习在军事领域也有一些应用[58, 59]。例如在[60]中，模仿学习被应用于学习计算机生成部队的决策策略。所学到的行为随后可以在模拟器中用于训练士兵[39]。

前面提到的研究有一个共同点，就是使用人在环模拟器来收集人类案例。它确切地知道当前的状态是什么，可能的行动是什么，以及采取了行动后的下一个状态会是什么。这使得行为模型的创建成为可能。然而，在MCTC数据的情况下，只有状态信息是可用的，没有关于当前可用行动的知识，也没有关于士兵的信息位置是什么。例如，只知道士兵的位置，而不知道士兵所面对的方向或士兵正在考虑的潜在行动。这个问题在文献中被定义为从观察中模仿（Ifo）[61]。Ifo可以进一步细分为基于模型和无模型。在基于模型的情况下，要么必须学习从状态到行动的转换，要么必须学习从状态-行动对到下一个状态的转换。MCTC的用例属于无模型的范畴。在这个类别中，我们可以进一步区分为：（1）使用模拟器收集数据并将数据与专家示范进行比较的对抗性方法，以及（2）奖励工程[62]，用于学习状态奖励函数。典型的例子是通过观看一个人执行所需任务的视频图像来学习一个任务[63, 64]。

由于MCTC没有可执行的模拟器，对于MCTC的用例来说，只有奖励工程是一个可行的选择。我们开发了一个系统，当给定当前的参与状态时，能够预测未来一定秒数的状态。这与[65]密切相关，后者在强化学习环境中使用预测状态和实际状态之间的差异作为奖励函数。主要的区别是，由于没有模拟器，所以不能用MCTC的数据进行强化学习。

我们必须定义 "状态"在MCTC方面的含义。收集到的数据包拥有完整的数据，包括所有士兵和车辆、蓝色和红色部队的数据。如果把整个交战过程看作是状态（即所有玩家和环境中一切事物的状态），那么就有可能出现天文数字般的许多下一个状态，例如每个士兵或车辆可以向任何方向移动。而且，士兵也不是用所有的全局信息来决定自己的行动，而是用自己的局部信息。因此，我们将状态定义简化为士兵的局部环境，并试图预测士兵的下一个位置。尽管士兵的状态还有很多，如射击状态、健康状态、当前姿势，但我们目前只关注预测下一个位置，以便评估奖励工程的适用性和MCTC提供的数据的适用性。

周围的状态特征被抽象为一个网格，每个网格单元和特征的组合都是决策的输入。做出决策的士兵位于网格的中心位置。真正的士兵有可能考虑到网格外的信息（例如，当能见度好时，或通过无线电接收信息时），但我们只考虑到属于网格单元内的信息。也有可能目前考虑了太多的信息，因为包括了不在视线范围内的信息（例如，当有建筑物挡住时）。可以增加士兵可能考虑的各种特征：河流的位置、一天中的时间、当前的任务、剩余的弹药、当前的健康状况、过去采取的行动等等。这与士兵的实际推理方式越接近，预计学习结果就越准确。

在我们的环境中，我们使用一个8x8的网格，每个网格的实际大小为83米乘83米，如图7所示。我们考虑到友军和敌军士兵的邻近情况。在图7的状态中，士兵西北面的单元格中有1名友军士兵，而其他单元格都有0名友军士兵，西南面有一名敌军士兵。位于网格外的士兵没有被考虑在内。我们还考虑到过去采取了什么行动（即过去三个episode的位置）。这个输入网格是重复的，并为三个历史episode中的每一个填补。我们选择以15秒为一个episode的步骤，因为这符合MCTC收集数据的速度。任何更短的时间都是没有用的，因为在各集之间没有新的位置被告知。

作为监督学习的目标，如图8所示，使用3乘3的网格，单元的宽度和高度为2米。单元的大小与数据记录的分辨率一致。网格在单元移动到的位置上有一个1，其他地方有0。在单元的下一个已知位置在网格之外的情况下，将选择最近的网格位置作为目标。

图7：用于决策的局部特征的输入网格。每个单元是83x83米，我们计算每个单元中友军和敌军的数量。最后三个episode的输入网格构成了神经网络的输入。

图8：决策的输出。一个3x3的运动位置的网格，每个单元是2x2米。箭头表示根据MCTC的数据，15秒后士兵的位置在左下角的网格单元，这个单元被用作情况的监督标签。

我们训练一个具有3个隐藏层的全连接神经网络，每层有100个隐藏神经元。我们使用整流的线性单元激活函数和平均平方误差作为损失函数。一个有趣的讨论是如何评估创建的神经网络的性能。虽然预测位置的小差异看起来并不坏，但一系列的小差异会在以后累积成一个大的差异。同时，一个决定可以将士兵带入一个不同的环境（例如，通过左边或右边的建筑物）。这个决定点之后的行动可能会有很大的不同（例如，向左走时要找掩护，而向右走时要成功清除建筑物）。因此，我们无法评估士兵行为的真实性，除非准确的位置和状态已经在原始数据中出现。

因此，我们以两种方式来衡量学习行为的真实性。(1) 基于原始数据，使用测试集上的精度和召回率，这是定量的衡量标准。(2) 我们重新播放军事演习，其中一个或几个单位由所学模型控制，并判断其行为。所有其他单位都使用原始数据进行放置和移动。这提供了对所学行为的洞察力，这是一种定性的衡量标准。

表2显示了监督学习方法的衡量标准：准确度、精确度、召回率和f1-score。请记住，有9个输出单元，随机猜对的概率是0.11，在这种情况下，所有四个衡量标准的值预计都在0.11左右，用于随机猜测。训练集是平衡的，所以每个输出单元都有同等数量的例子。表2显示，准确度比随机猜测高，但离稳定地预测下一个状态仍有距离。

表2：预测士兵下一个状态的量化

为了分析所学模型的行为，我们在演习中放置了一个由该模型控制的单一士兵。显示了由模型创建的士兵的运动路径与原始士兵的运动路径的比较。这里我们看到，神经网络的移动方式与原始士兵的移动方式大致相同。这个例子也突出了处理这些数据的难度。原始士兵的位置（绿色）有时会出现大的跳跃（例如，东部的第一个数据点附近没有邻居）。

图9：模型的移动和实际的移动比较。突出显示的蓝色位置是由神经网络引导的士兵。高亮的绿色位置是原始士兵的实际位置。两者的起点都是在城镇的东边，并且都逐渐向西移动。

通过分析这些痕迹中的几个，我们可以得出结论，该模型学到了两个与实际士兵行为相似的行为特征。(1) 靠近友军士兵是有益的。士兵们经常作为一个群体移动，模型通常选择向友军单位移动。(2) 当历史上的移动是朝着一个方向的时候，下一次移动也是朝着这个方向的概率很高。由于士兵有一定的任务，即清除建筑物，所以士兵一直向目标方向移动，直到到达目标为止，这是合理的。尽管这些特征是有道理的，但它们也在某些情况下产生了不现实的行为。(1) 当多个士兵被模型控制时，他们往往会相互粘在一起，停止移动。人造的士兵并不想与对方拉开距离。(2)当一个模型控制的士兵进入一个没有朋友或敌人的领地时，它倾向于一直朝同一方向行走，直到退出战场。由于预测是由最近的历史移动主导的，而所有其他的输入都是0，所以模型决定继续朝同一方向移动。造成这种情况的原因之一是，当前的任务不是输入特征的一部分。

我们认为，这一结果表明，在自动创建一个基于奖励工程方法的士兵决策过程模型方面迈出了第一步。虽然目前只学到了基本的行为，但我们预见到，当更多类型的输入，如地形特征和命令，被纳入学习过程中时，会出现更复杂的模式。

VII. 结论

本文研究了以数据驱动的方式，利用军事决策创建单位行为模型的可能性。我们表明，用军事数据调整由主题专家创建的模型参数是可能的。但对于数据而言即使是手动注释的，也不能直接使用。由于数据的收集是为了其他目标，行为背景是不同的，这阻碍有效使用数据达成我们的目的。我们调查了模仿学习这一新兴的研究领域，并将其应用于学习预测城市建筑清理工作中的士兵行动这一用例。这种技术不仅可以在相同的情况下再现真实的士兵行为，而且还可以对行为进行概括，以获得以前未见过情况下的真实行为。虽然该研究领域有许多子领域，但目前只有奖励工程似乎是适用的，在既没有模拟器，也没有可能性在一个状态下检索一组动作来学习动作策略的情况下。我们通过尝试根据本地状态信息来预测士兵的下一个状态来证明奖励工程的方法。神经网络学习了两种基本的士兵行为特征，在某些情况下创造了现实行为，而在其他情况下则表现出不合逻辑的行为。我们认为，不符合逻辑的行为仍然可以通过额外的特征输入进行改进。

我们的总体结论是，模仿学习对于创建军事决策的行为模型似乎很有希望。如果成功的话，以这种方式创建的行为模型可以在几个方面给军队带来好处。例如，可以考虑为创造新的训练场景做出贡献，在这些场景中，计算机生成部队的行为得到了改善，通过比较受训者的行为和学到的正确行为来支持行动后的审查，比较并调整基本的战斗程序以适应战场上的行为，能够显示准确行为的模拟实体合成包。根据所开发模型的准确性，一些应用可能比其他应用更容易支持。例如，在决策支持环境中，与合成包环境相比，对精度的要求可能更高。

在未来，我们希望（1）创建自动方法，通过在战术层面上创建额外的背景来预处理MCTC的数据。我们想到的方法有：估计当前的观点，或当前执行的是什么（类型的）命令。这种额外的背景可以帮助改善模型的参数调整。(2)我们想改进奖励工程方法的特征集，以使行为更加真实。(3) 我们想探索可解释的学习方法，以便使学习的行为更加明确。然后，解释可以用于各种目的，如行动后审查。