《基于自然语言的人工智能军事决策支持》

为了真实地再现军事行动，严肃的战斗模拟要求建模实体具有合理的战术行为。因此，必须定义作战战术、条令、交战规则和行动概念。事实证明，强化学习可以在相关实体的行为边界内生成广泛的战术行动。在多智能体地面作战场景中，本文展示了人工智能（AI）应用如何制定战略并向附属单元提供命令，同时相应地执行任务。我们提出了一种将人类知识和责任与人工智能系统相结合的方法。为了在共同层面上进行交流，人工智能以自然语言下达命令和行动。这样，人类操作员就可以扮演 "人在回路中 "的角色，对人工智能的推理进行验证和评估。本文展示了自然语言与强化学习过程的成功整合。

RELEGS：针对复杂作战情况的强化学习

为了获得模型架构的灵感，我们研究了 DeepMind 的 AlphaStar 架构，因为它被认为是复杂 RL 问题领域的最先进架构。通过我们的架构（如图 2 所示），我们提出了一种灵活、可扩展的行动空间与深度神经网络相结合的适应性新方法。观察空间的设计基于如何准备战场的军事经验。通常使用地图和可用部队表。因此，模拟观测被分为标量数据（如可用坦克数量及其弹药）。同时，基于地图的输入作为视觉输入提供给空间编码器。

标量数据用于向人工智能提供几乎所有场景细节的建议。其中包括有关自身部队及其平台的数据，以及有关敌方部队的部分信息。输入并非以绝对数字给出，而是采用归一化方法来提高训练效果。编码器可以很容易地写成多层感知器（MLP）；不过，使用多头注意力网络可以大大提高训练后智能体的质量，因此应予以采用（Vaswani 等人，2017 年）。

为了理解地理地形、距离和海拔高度的含义，人工智能会被输入一个带有实体编码的地图视觉表示。颜色方案基于三通道图像，这使我们能够轻松地将数据可视化。虽然使用更多通道会给人类的图形显示带来问题，但人工智能能够理解更多通道。不同的字段类型和实体会用特殊的颜色进行编码，以便始终能够区分。这种所谓的空间编码器由多个卷积层组成。最初，我们尝试使用 ResNet-50 （He 和 Zhang，2016 年）和 MobileNetV3 （Howard 等，2019 年）等著名架构，甚至使用预先训练的权重。然而，这并没有带来可接受的训练性能。因此，我们用自己的架构缩小了卷积神经网络（CNN）的规模。

为了测试和优化这一架构，我们使用了一个自动编码器设置，并使用了模拟中的真实样本。我们能够将参数数量从大约 200 万减少到大约 47000。此外，我们还生成了一个预训练模型，该模型已与模拟的真实观测数据相匹配。这一步极大地帮助我们加快了 RL 进程。

一个可选元素是添加语言输入，为人工智能定义任务。虽然一般的战略人工智能不使用这一元素，但计划将其用于下属智能体。这些智能体将以自然语言接收来自战略人工智能的任务，并使用双向门控递归单元（GRU）编码器对其进行处理。

视觉数据、任务数据和标量数据的编码值被合并并输入核心网络。根据 Hochreiter 和 Schmidhuber（1997 年）的介绍，核心主要是一个拥有 768 个单元的长短期记忆（LSTM）组件。在军事场景中，指挥官必须了解高价值资产的长期战略规划。在本模拟中，人工智能可以请求战斗支援要素，这些要素在影响战场之前需要长达 15 分钟的时间。因此，人工智能必须了解未来任务的时间安排和规划。在 RL 中使用 LSTM 网络相当困难，因为它需要大量的训练时间，而且会导致上面各层的梯度消失。因此，我们决定在 LSTM 上添加一个跳过连接，以尽量减少新增层的负面影响。