《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

2022 年 6 月 2 日 专知

本文研究了以数据驱动的方式创建军事决策行为模型的可能性。由于实际作战行动的数据不多，而且在军事背景下不容易创建数据，因此大多数方法都使用模拟器来学习行为。然而，模拟器并不总是可用的，或者很难创建。本研究的重点是通过在实地演习中收集的数据创建行为模型。由于数据通常是有限的、有噪音的和错误的，这使得创建真实的模型具有挑战性。除了使用基于数据手工制作模型的传统方法外，我们还调查了新兴的模仿学习研究领域。其技术之一，奖励工程，被应用于学习城市战争行动中士兵的行为。我们学习了基本的、但现实的士兵行为，这为将来建立更复杂的模型打下了基础。

【关键词】行为, 模型, 模仿学习, 仿真, 军事数据

I. 为什么需要行为模型？怎样创建行为模型？

在教育、培训、分析和决策支持中越来越多地使用模拟仿真，这导致了对军事决策行为模型的更高要求。除了需要准确模拟物理行为，如坦克运动或子弹/导弹轨迹外，还需要模拟实体或车辆的真实战术行为。这些虚拟参与者的决策过程被记录在一个行为模型中。行为模型最早是在[1]中提出的，我们将它们定义为类人、人控或自主操作的现实世界系统行为的操作、概念、心理或战术模型。

这种现实世界系统的例子可以是由指挥官指挥的坦克；由船长指挥的船舶；由飞行员驾驶的战斗机；由地面操作员控制的无人驾驶飞行器（UAV）；或人类行为者本身，例如，一个步兵。此外，我们不限制系统的大小。例如，我们也考虑将一个坦克营、一个舰队或一个无人机群作为行为模型的合适对象。在军事模拟中，当机器决定一个单位或部队的行动时，这些系统被称为计算机生成部队（CGFs）。

新行为模型的开发和应用是一个复杂的过程。由于缺乏互操作性的方法和标准，导致各种模型四分五裂，大多只在单一的仿真系统中使用。早期的工作[2]调查了在开发的哪个阶段可以实现行为模型的有效重用，以及需要哪些支持过程、技术和标准。一个结论是，人们对这一研究领域很感兴趣，工具和标准也在不断发展，AI（人工智能）及其创建性能良好模型的能力将在各种军事应用中发挥巨大作用。另一个结论是，目前对于荷兰国防部来说，在不同环境中重复使用行为模型的价值不足。与其说是重复使用模型，不如说是希望建立更加高效和有效的模型。实现这一目标的方法之一，是使用人工智能研究领域的最先进技术[3]。

在机器学习的应用中，正确和不正确的行为或决定的例子被提交给一个学习系统，希望该系统能够归纳出这些例子。这被称为监督学习[4]，它的成功取决于许多因素（例如，算法、数据的大小和类型，以及实施技术）。在军事背景下使用实际数据的一个问题是，数据可能被分类或根本无法获得，因为军事冲突的数量很少。

第二种常见的方法是在模拟器中部署行为模型，并使用生成的数据来改进模型的参数；而最常见的方法是强化学习[5]。强化学习的一个困难是，奖励函数必须精心设计，模拟器中的任何错误都可能被利用，导致学习不希望的行为[6]。这种错误可能发生在人类从未遇到的不可预见的情况下，但算法由于在数百万次的模拟中对搜索空间的探索而发生。此外，必须首先开发一个准确的模拟器，因为模拟中的错误可能被利用或导致学习不现实的行为[7]。在军事环境中，强化学习方法是困难的，但也是有希望的[8]。

对于监督学习来说，需要大量高质量的数据，对于强化学习来说，需要高质量的奖励函数和模拟器，而很多用例都存在两者都没有的情况。如果没有大量的高质量数据，或者没有能够创建这种数据的模拟器，那么人工智能领域的许多技术就不适用。在这种情况下，并不清楚哪种方法能以最少的努力获得最好的结果。因此，本研究旨在创建行为模型，以有效的方式显示真实的行为，同时拥有很少的数据和没有模拟器可用。为此，我们采用了模仿学习[9]研究领域的方法。模仿学习的重点是在师生环境中用专家的行为明确地训练模型。如果模型能够模仿老师的行为，它就正确地学会了行为。我们在研究中应用了这些技术，为在城市战争行动演习中行动的士兵和Boxer车辆创建行为模型。收集到的数据非常有限，而且没有办法创造更多的数据或能够在模拟器中测试模型。

通过这项研究，我们的目标是行为模型，它可以促进（1）创建新的训练场景，其中计算机生成部队的行为被用于创建更好的场景[10]；（2）通过将受训者产生的数据与事先用我们的方法学到的正确行为模型进行比较，支持行动后的审查；（3）将基本战斗技术的模型行为与士兵在战场上的行为进行比较。如果士兵的行为看起来更成功，这可以促使调整基本作战技术的想法；（4）为合成包装生成逼真的模拟实体行为[11，12]；（5）通过使用学到的行为为决策者提供建议，实现对指挥官提供基于模拟的决策支持。

第二节研究了创建行为模型所需的数据要求。第三节介绍了本研究的用例。第四节介绍了手工制作模型的传统方法。我们在第五节中介绍了模仿学习这一新兴领域的背景信息，并在第六节中介绍了其在本用例中的应用。最后，第七节提供了结论性意见。