《基于多智能体强化学习的异构平台数据驱动分布式共同作战图景》

配备先进传感器的无人平台的集成有望提高态势感知能力，缓解军事行动中的 “战争迷雾”。然而，管理这些平台涌入的大量数据给指挥与控制（C2）系统带来了巨大挑战。本研究提出了一种新颖的多智能体学习框架来应对这一挑战。该方法可实现智能体与人类之间自主、安全的通信，进而实时形成可解释的 “共同作战图景”（COP）。每个智能体将其感知和行动编码为紧凑向量，然后通过传输、接收和解码形成包含战场上所有智能体（友方和敌方）当前状态的 COP。利用深度强化学习（DRL），联合训练 COP 模型和智能体的行动选择策略。展示了在全球定位系统失效和通信中断等恶劣条件下的复原能力。在 Starcraft-2 模拟环境中进行了实验验证，以评估 COP 的精度和策略的鲁棒性。报告显示，COP 误差小于 5%，策略可抵御各种对抗条件。总之，贡献包括自主 COP 形成方法、通过分布式预测提高复原力以及联合训练 COP 模型和多智能体 RL 策略。这项研究推动了自适应和弹性 C2 的发展，促进了对异构无人平台的有效控制。

图：从学习到的交流中预测 COP 的框架概览。在决策过程中确定并使用 COP。使用 QMIX作为 COP 集成的 MARL 方法示例。

配备先进传感器的无人平台的集成为减轻 “战争迷雾 ”和提高态势感知能力带来了希望。然而，管理和传播来自此类平台的大量数据对中央指挥与控制（C2）节点的信息处理能力构成了巨大挑战，特别是考虑到随着平台数量的增加，数据量也会呈指数级增长。目前的人工处理方法不适合未来涉及无人平台群的 C2 场景。在本研究中，我们提出了一个利用多智能体学习方法来克服这一障碍的框架。

我们考虑的框架是，智能体以自主方式相互通信（以及与人类通信），并以数据驱动的方式训练这种通信功能。在每个时间步骤中，每个智能体都可以发送/接收一个实值信息向量。该向量是智能体感知或视场（FoV）的学习编码。这些向量不易被对手解读，因此可以实现安全的信息传输。

在接收方，必须对信息进行解码，以恢复发送方的感知和行动。此外，还应将信息整合（随时间汇总）到 “共同作战图像”（COP）中。与编码器一样，解码器也是以数据驱动的方式学习的。在本文中，我们将 COP 的定义简化为战场上每个友方和敌方智能体的当前状态（位置、健康状况、护盾、武器等）。我们认为，COP 对决策智能体至关重要。

近年来，以数据驱动方式进行端到端训练的人工智能/人工智能方法大有可为。在数据驱动型自主 COP 的背景下，一个优势是无需对传感器和执行器中的噪声、对手的动态等做出建模假设。通过充分的训练，我们的数据驱动方法将产生高度精确的 COP。

不过，ML 模型可能对训练数据或训练场景的偏差很敏感。这与陆军 C2 场景中通常假设的 DDIL（拒绝、中断、间歇和有限影响）环境形成了鲜明对比。我们的实验强调评估对雾增加、全球定位系统失效和通信中断（如干扰）的适应能力。

我们使用深度神经网络（DNN）的深度学习实现了编码器和解码器的数据驱动端到端训练。将 DNN 应用于 COP 形成的一个挑战是通信中缺乏人类可解释性。人类可解释性对于人类操作员有效控制蜂群至关重要。例如，通过解释通信，操作员可以理解蜂群用于（自主）决策的特征。我们的方法具有人机互换性，这意味着人类操作员可以解码传入的信息，并将自己的感知编码，与蜂群进行交流。由此产生的 COP 使人类能够指挥蜂群。

在实践中，COP 被大量用于任务执行，例如，确保协调运动。我们假设，将 COP 纳入自主决策智能体将产生弹性多智能体策略（例如，对敌方变化的弹性）。我们在实验中将有 COP 和没有 COP 的多智能体策略学习与多种最先进的方法进行了比较，并验证了这一假设。

接下来，我们总结一下我们的方法。我们首先描述了我们的深度学习方案，其中每个智能体将其感知和行动编码成紧凑向量并进行传输。各智能体共享底层嵌入向量空间，以实现对态势的共同理解。每个智能体都要训练一个编码器-解码器，以生成本地 COP。本地 COP 应与智能体的感知一致，并能预测行动区域内所有单元的状态（包括位置）。

在不同的模拟场景、初始部队配置和对手行动中，使用深度强化学习（DRL）对 COP 和智能体策略进行端到端训练。训练的输出是一个编码器-解码器神经网络（NN）和一个跨智能体共享的策略 NN。可通过多种方式对训练进行配置：最小化带宽、最大化对干扰（如信道噪声、数据包丢失、GPS 干扰等）的恢复能力。该方法可用于协调信息收集任务。

实验在星际争霸-2（SC2）多智能体环境中进行。在 SC2 中模拟的多个蓝方与红方场景中，通过经验观察了方法的有效性。具体来说，在具有挑战性和现实性的 TigerClaw 场景（图 1）中测试和评估了方法，该场景由 DEVCOM 陆军研究实验室（ARL）和陆军主题专家（SMEs）在美国佐治亚州摩尔堡的上尉职业课程中开发。

图 1：（左）Tigerclaw场景中的状态示例。(右）每个智能体的感知（本地观察）和它们之间的通信联系。

对 COP 的准确性和幻觉进行评估，以揭示有趣的训练动态。在整个模拟过程中，方法生成的 COP 高度准确，误差小于 5%（与地面实况相比）。为了测试策略的鲁棒性，我们将我们的方法与多种最先进的多智能体 RL 方法和基线进行了比较。结果表明，我们的方法所制定的策略能够抵御视觉范围下降、通信能力下降、GPS 被拒绝以及场景变化等因素的影响。

总之，这项研究通过数据驱动的 COP 形成，实现了人在环内的异构自主平台的指挥和控制，推动了自适应和弹性 C2 领域的发展。其贡献如下：