计算机生成兵力《计算生成动作：生成空战行为》249页

通过与被称为计算机生成兵力（CGF）的虚拟对手进行训练，受训战斗机飞行员可以积累空战行动所需的经验，而其成本仅为使用真实飞机训练的一小部分。但实际上，计算机生成兵力的种类并不丰富。这主要是由于缺乏 CGF 的行为模型。在本论文中，我们研究了空战训练模拟中 CGF 的行为模型在多大程度上可以通过使用机器学习自动生成。空战领域非常复杂，在该领域内运行的机器学习方法必须适合该领域带来的挑战。我们的研究表明，动态脚本算法极大地促进了空战行为模型的自动生成，同时又具有足够的灵活性，可以根据挑战的需要进行调整。然而，确保新生成行为模型的有效性仍是未来研究的一个关注点。

生成空战行为模型

人工智能（ai）领域可以为行为建模过程提供一种替代方法，并通过纠正上一节中提到的两种后果来提高模拟训练的效果。这种替代方法是通过机器学习生成行为模型。机器学习程序在各种任务中的表现都优于人类，例如信用卡欺诈检测、云计算资源分配，以及玩扑克和围棋等游戏。对于此类任务，机器学习程序能够通过以下三种特性的结合产生创造性的解决方案：（1）计算速度；（2）精确的约束满足能力；（3）巧妙的学习算法。利用这三个特性并将其应用于行为模型的开发，我们就能获得以下能力：(1) 以更快的速度开发行为模型；(2) 开发出比目前更多变化的行为模型。因此，使用机器学习程序开发行为模型有可能消除当前行为建模过程对训练效果造成的两种影响。

不过，在将机器学习应用于空战模拟之前，我们必须先考虑空战领域。空战领域十分复杂，在这一领域内运行的机器学习方法必须适合该领域带来的挑战。五项挑战：(a) 形成团队合作，(b) 对 cgf 行为进行计算评估，(c) 有效重用已获得的知识，(d) 验证生成的行为模型，以及 (e) 生成可访问的行为模型。这五大挑战并非空战领域所独有。但是，这些挑战需要适合该领域的解决方案。

研究问题

研究问题 1：能在多大程度上生成能产生团队协调的空战行为模型？

动态脚本使用奖励函数来评估使用生成的行为模型的空战 cgf 所显示的行为。奖励函数产生的奖励用于调整新生成的行为模型，以寻找最佳模型。如前所述（见挑战 b），空战行为评估存在两个问题。在文献中，这两个问题分别被称为奖励稀疏和奖励不稳定（见第 4 章）。不过，文献中提出的空战行为奖励函数并不总是考虑到这两个问题。然而，这样做可能会产生更理想的行为模型。这就引出了第二个研究问题。

研究问题 2：能在多大程度上改进空战 cgf 的奖励功能？

动态脚本将 cgf 在整个学习过程中积累的知识以权重值的形式存储在规则库中的规则上。每条规则的权重值表示该规则相对于规则库中其他规则的重要性。就重复使用而言，在一个空战场景中构建的知识也有可能在另一个空战场景中得到有效应用。我们将知识重用置于迁移学习的背景下，即让一个 cgf 在一个场景中学习，然后将其知识迁移到一个新的、未见过的场景中。这就引出了第三个研究问题。

研究问题 3：使用动态脚本构建的知识在多大程度上可以在不同场景下的 cgf 之间成功转移？

我们的目标是将生成的行为模型用于模拟训练。验证模型是实现有效使用模型的重要一步。行为建模过程中的第 4 步说明了验证的重要性。然而，由于行为模型验证没有放之四海而皆准的解决方案，我们首先必须确定验证的正确方法。这就引出了第四个研究问题。

研究问题 4：我们应该如何验证机器生成的空战行为模型以用于模拟训练？研究问题 4 的答案就是验证程序。通过该程序，我们可以确定我们在研究中生成的行为模型的有效性。所选择的研究方法引出了第五个研究问题。

研究问题 5：通过动态脚本生成的空战行为模型在多大程度上可用于模拟训练？

回答了这五个研究问题，我们就能回答问题陈述。

在第 1 章中，我们介绍了问题陈述和五个研究问题。此外，还介绍了解决研究问题的研究方法。

在第 2 章中，我们提供了有关四个主题的文献背景信息（另见第 1.1 节）： (1) 行为建模过程的详细步骤；(2) 在模拟训练中使用机器学习的潜在好处和缺点；(3) 过去使用机器学习生成空战行为模型的方法；(4) 动态脚本及其在空战模拟中的适用性。

在第 3 章中，我们介绍了团队协调的三种方法：(1) 默契；(2) 中心；(3) 体面。我们通过实验研究团队协调方法的益处，然后回答研究问题 1。

在第 4 章中，我们将深入研究动态脚本编写过程的一个特定部分，即奖励功能。我们将展示三种不同奖励函数的使用如何影响我们的 cgfs 的行为，然后回答研究问题 2。

在第 5 章中，我们研究了 cgf 在某种空战场景中积累的知识在多大程度上可以成功转移到不同空战场景中的 cgf 上，然后回答了研究问题 3。

在第 6 章中，我们设计了一个验证程序，通过该程序可以验证为空战 cgf 生成的行为模型。此外，我们还介绍了 atacc，然后回答了研究问题 4。

在第 7 章中，我们将验证程序应用于战斗机 4 舰模拟器中新生成的行为模型，然后回答研究问题 5。