《用于军事决策支持的自然语言人工智能和基于战斗模拟训练的自主无人机蜂群控制》最新论文

通过整合人工智能辅助指挥系统和无人技术，未来战争正在经历变革，这将对作战行动和军事决策周期所需的速度产生重大影响。未来的决策支持系统将协助军事决策者评估威胁，为部队制定最佳行动方案，甚至通过自主系统的协作群行为执行行动。要实现这些系统，建模与仿真以及先进的深度强化学习（RL）技术的结合将发挥至关重要的作用。

本文介绍了德国陆军概念与能力发展中心和空中客车公司开展的几项研究的结果。这些研究评估了模拟和人工智能技术的调整和利用情况，利用 RL 优化模拟 "ReLeGSim "训练了一个能够在陆军作战中充当营级指挥员或在 ISR 任务中控制无人机群的AI智能体。AI智能体利用语言模型生成自然语言命令，在 ReLeGSim 中执行行动，加强了人类顾问与人工智能系统之间的交流，同时将目标和条令纳入人工智能推理过程。通过军事条令感知反馈功能，智能体在每个训练周期内评估并改进其行为。

训练完成后，AI智能体可应用于真实世界的场景，根据所学的AI智能体策略为营长制定行动方案，或直接在自主系统中执行，以控制无人机蜂群。这项研究为使智能体具备在未来行动中维护军事条令和规则的能力奠定了基础。

1.0 引言

近年来，人工智能（AI）取得了长足的进步，而强化学习（RL）则是其中一个突出的范例。强化学习因其在 Dota2 和《星际争霸》等复杂游戏场景中实现卓越性能，甚至超越人类能力的能力而备受关注。它已成为机器学习领域用于解决复杂任务的最先进的人工智能技术。

当前军事研究的主要目标是将最初为游戏应用而设计的 RL 技术移植到军事行动领域。其总体目标是为军事行动开发基于人工智能的系统，使其在许多使用案例中都能表现出超人水平的性能，例如[16]：

战场决策：通过使用模拟环境，RL 可用于训练智能体在复杂的军事场景中做出决策[1]。人工智能做出的决策可用作向指挥官提出的建议，例如，有效的行动方案。
自主系统： RL 可用于训练智能体在模拟环境中控制军用车辆（如无人机、坦克）[2]。智能体可以学会在环境中导航车辆并执行各种任务（如侦察、目标捕获）。经过训练的智能体可以转移到真实车辆上，而无需重新训练人工智能。
规划与优化：例如，RL 可用于优化军事模拟中的后勤规划[3]。智能体可以学习将资源（如部队、补给）分配到战场的不同区域，以实现任务目标，同时将损失降到最低。
网络安全：在军事模拟中，RL 可用于训练智能体检测和应对网络攻击 [4]。智能体可以学会识别和减轻对军事网络和系统的威胁。
培训与评估： RL 可用于在模拟中培训和评估军事人员 [5]。智能体可以模拟不同的场景，并对受训人员采取的行动提供反馈。

应用于 RL 的技术在不断变化和改进。变压器模型[6]等新架构和 SiLU [7]等新激活函数正在进一步改善用 RL 训练的人工智能体的架构和整体性能。转换器模型允许使用新的架构，如视觉转换器（VisionTransformers）[8]，也是所有最新大型语言模型的基础，如 OpenAI [9] 的 GPT（生成预训练转换器）。

在这些发展的推动下，本文研究了如何使用新的语言模型架构来解决军事行动所需的巨大行动空间问题，并提高智能体的整体性能。

2.0 相关工作

在 RL 中，复杂的决策能力往往伴随着巨大的行动空间，而缓解行动空间爆炸是一个活跃的研究领域。论文 "不断增长的行动空间"[10] 强调，随机探索对于大型空间来说不够好，课程学习对于学习这些行动空间至关重要。最近的发展使用了以自然语言为特征的动作空间，并成功地利用了其复杂动作生成的灵活性[11]。

自然语言处理领域的最新进展激发了开发人员拓展使用自然语言的可能性。语言模型通常用于问题解答和对话。不过，这些模型也可以通过 RL 训练与环境互动。在他们的论文 "学习用语言模拟世界"[12]中，介绍了构建智能体的概念，这些智能体可以理解并以多种方式使用不同的语言，包括传达常识、描述世界状态和提供反馈。其核心思想是，语言可以帮助智能体预测未来，包括将观察到什么、世界将如何表现以及哪些行为将得到奖励。作者介绍的 "Dynalang "是一种学习多模态世界模型的智能体，它能预测未来的文本和图像表征，并根据模拟模型的推出做出决策。与传统智能体不同，Dynalang 不仅使用语言进行行动预测，还使用语言预测未来的语言、视频和奖励，从而获得丰富的语言理解能力。此外，Dynalang 还可以在没有动作或奖励的语言和视频数据集上进行预训练，它能有效地利用语言来提高从网格世界到逼真家庭扫描等各种环境中的任务性能。

RL 的另一个重要方面在于奖励系统的适应性，即为智能体提供激励措施以鼓励所期望行为的概念。奖励塑造是一种用于系统修改这些奖励结构的技术。在实践中，这涉及对奖励进行微调，以引导智能体实现特定目标。举例来说，在迷宫导航的背景下，人工智能体可以在探索之前未知区域时获得递增奖励，从而刺激全面探索。另一种策略是元学习或多任务学习，它使人工智能系统能够同时监督多个可能不同的目标。这种方法类似于同时掌握几项任务，通过在这些任务之间共享所获得的知识和技能来实现。然而，在人工智能中动态改变奖励功能的过程伴随着内在的挑战。

如果目标的转变过于突然，人工智能系统可能难以适应，需要进行资源密集型的再训练。频繁改变目标可能会给人工智能带来困惑。总之，在人工智能中动态调节奖励机制的做法体现了一种强有力的工具，尽管这种工具需要谨慎管理。首要目标是在人工智能的学习过程中实现适应性和稳定性之间的平衡，确保在适应不断变化的目标和保持有效的学习动力之间达到和谐的平衡。

最近发表的论文“Designing Rewards for Fast Learning”[13] 探讨了奖励函数设计对 RL 智能体学习速度的影响。它强调了选择基于状态的奖励的重要性，这种奖励能最大化行动差距，使智能体更容易区分最优行动和次优行动。论文还引入了最小化一种称为 "主观折扣 "的度量的概念，以鼓励智能体在减少前瞻性的情况下做出最优决策。为了解决奖励设计问题，本文提出了一种线性编程算法。在表格环境中使用 Q-Learning 的实验结果表明，生成的奖励能加快学习速度。该研究确定了奖励设计的三个关键原则：1）与奖励目标相比，惩罚每一步有助于加快学习速度。2) 沿目标轨迹奖励子目标时，奖励应随着目标的接近而逐渐增加。3) 只有经过精心设计，在每个状态下都不为零的密集奖励才是有益的。

3.0 Relegs--复杂作战环境下的强化学习

3.1 模拟环境 "ReLeGSim"

ReLeGSim（强化学习通用人工智能训练模拟，如图 1 所示）是一个类似棋盘的模拟环境，用于强化学习，以开发棋手在游戏中的自我优化策略。任意棋手都要通过一系列棋步达到目标，并且可以相互影响。ReLeGSim 可用于模拟各种民用和军用场景，如 ISR 任务或大营地面作战场景。ReLeGSim 允许为类似国际象棋游戏的环境定义角色，赋予它们相应的属性和可能的行动。为此，可以使用 Python 编程语言，通过适当的特定应用仿真模型（如传感器）对仿真进行扩展。

在 ReLeGs1 研究范围内，ReLeGSim 被配置为 2 个营的对抗模型，其中每个营的指挥官都必须指挥其指定的连队和支援单元。它允许玩家（无论是人类还是智能体）在攻击或防御的战术场景中生成营的命令。该模拟由论文[1]介绍，使用了用于强化学习的 "Gymnasium "API[14]。

图 1 ReLeGSim 用户界面

在模拟游戏中，一名玩家扮演进攻方，旨在从防守方手中夺取一个特定的目标区域，而防守方则必须在整个过程中守住该区域。双方玩家都可以使用由排和单个单元组成的各种具有独特能力的连队。要想取得成功，玩家必须了解对手的观点，了解自己连队的能力，并有效地控制地形。

图 2 人工智能工具链 - ReLeGSim

人工智能工具链（图 2）可根据矢量、高程和卫星信息等真实世界数据自动创建三维地形。然后，栅格化地图将用于 ReLeGSim 中的人工智能训练，并为不同区域分配特定的实地类型（如森林或道路）。带有附加工具的模拟旨在提供一个平台，通过强化学习训练不同的人工智能模型，同时也支持人类与人工智能的博弈。因此，可以对训练好的智能体的能力进行基准测试、评估和分析。该工具链还包括对训练好的人工智能体进行自动测试，并根据客户需求提供各种指标和复杂的分析。

3.2 ReLeGSim 人工智能架构

ReLeGSim 的作者从 DeepMind 的 AlphaStar [15]（复杂 RL 问题的领先模型）中汲取灵感，开发出一种创新架构（图 3）。受军事战术的影响，该设计利用标量数据和可视化地图进行场景观察。标量数据包括部队人数和弹药，以扩展人工智能的视野。所有输入参数都经过归一化处理，以提高训练效果。标量值采用多头注意力网络，而不是全连接层，提高了智能体的质量。为了了解地形，人工智能接收了包含大量地形信息和实体编码的可视化地图。为了将这些丰富的数据纳入人工智能，我们开发了一个带有卷积层的空间编码器。

通过自动编码器设置对架构进行评估，并将其减少到最低限度，将参数从 200 万减少到 4.7 万，并生成一个预训练模型。可选的语言输入可将目标或任务考虑在内。在分层设置中，给定任务可由上级智能体定义。来自视觉、任务和标量数据的编码值被输入到一个核心网络（LSTM 组件）中，以处理长期规划。

行动头（action head）最初是基于 AlphaStar 实现的多离散行动空间。由于行动空间不断扩大，行动头被一个基于最新研究的语言模型所取代，该模型可预测自然语言中的行动指令。

图 3 ReLeGSim 使用的人工智能架构

3.3 人工智能决策空间

人工智能的复杂决策能力问题伴随着 RL 中巨大的行动空间而产生，随着 RL 应用变得越来越复杂和逼真，这也是一个巨大的挑战。小而固定的行动空间在表现力、探索性和效率方面都有局限性。研究人员正在不断开发新的技术和算法，以减轻不断膨胀的行动空间所带来的影响，如函数近似、离散化和分层 RL。这些方法使智能体能够处理日益复杂的任务，并更有效地应对大型行动空间的挑战。随着 RL 的不断进步，解决行动空间爆炸的问题仍将是一个重要的研究领域，以便在现实世界中成功应用 RL。

利用自然语言与人工智能建立交流的方法（如文献[2]所示），以及利用自然语言制定条令的发展（如文献[16]所强调），为在多方面作战环境中实现多用途人工智能能力开创了先例。ReLeGSim 在人工智能与模拟中的智能体之间建立了一个自然语言接口，可对给定命令进行复杂的解析和执行。这些命令可以是不同层次的，可以控制各种智能体。

最初的试验表明，大量未使用的词汇不利于训练，而且会导致训练速度减慢。因此，我们使用了一个小而有效的词汇表。该词汇表只包含以下标记：

<colon>标记将输出文本序列分割为多个动作，而<comma>标记则结束或填充结果。标记的缩减和优化都是手动完成的，并与模拟中执行的结果行为直接对应。为了标记动作，我们使用了单击编码，因为这允许我们对给定的动作进行随机抽样，并可通过多离散表示法轻松集成到任何给定的 RL 框架中。

4.0 实验与结果

4.1 "ReLeGs "中的行动方案（COA）决策支持仪表板

ReLeGSim 人工智能模型深度整合了人类对任务优先级排序的干预，通过将任务信息纳入观察空间来实现目标的实时变化（图 3）。为了训练这种行为，我们采用了课程学习策略，引入了用自然语言表达的各种优先级，每种优先级都与指导遵守规则的奖励相关联。这种方法鼓励智能体发展广泛的技能组合，在不同的场景中表现出色，并高效地实现目标。

为了将训练有素的智能体用于行动方案（COA）决策支持，我们开发了一个行动方案决策支持网络应用程序。根据给定的战斗情况和蓝军与红军的 ORBAT，决策支持网络应用程序会生成大量 ReLeGSim 模拟运行，以获得人工智能体在给定情况下如何行动的统计数据。此外，所有可能的决策因素（如可用的联合火力打击数量）都会发生变化，以便让用户设置特定的过滤设置，分析由此产生的数据。然后，对人工智能指挥的模拟运行结果进行统计分析，并通过基于网络的仪表板中的热图等方式将其可视化。

图 4 显示了一个热图可视化示例。它显示了在相同起始条件下多次模拟运行中所有蓝色和红色单元的移动情况。此外，在此示例中，红方营指挥官被赋予了两种不同的攻击优先级：a) 尽快攻击 vs. b) 攻击时尽量减少自身损失。图 4 说明了人工智能如何根据不同的目标调整自己的行为，例如优先考虑快速进攻还是尽量减少损失。

图 4 根据给定的优先级（a）和（b）比较营行动

这只是在给定场景中探索不同可能性的一种方法，可帮助操作员生成并验证行动方案。ReLeGSim 的工具箱中提供了从战争游戏、统计分析到红军行动方案预测的各种选项。该决策支持工具可自动进行场景测试、战术优化和人工智能模型评估，促进多样化探索和适应性决策。

4.2 "KITU "中异质无人机群的自主控制

在德国陆军总部的 "战术无人机系统的人工智能（KITU）"研究中，空中客车防务与航天公司与两家德国初创公司量子系统公司（Quantum-Systems）和Sleenlab正在探索在军事场景中使用人工智能（AI）控制战术无人机系统（UAS）。这项研究的重点是演示和分析用于自主无人机群的人工智能组件，重点是与主地面作战系统（MGCS）和北约东翼监视方案保持一致。重点领域是异源无人机群的协调、目标探测和动态任务执行。使用人工智能对各种自动化任务进行训练，以了解从传感器到射手链的工作量、有效性和效率。该研究还调查了数据处理位置、恢复能力以及群控制在中断情况下的稳健性。

采用深度强化学习方法来开发能够在人类监督下控制无人机群的人工智能。图 5 显示了从 RL 训练、验证到实际飞行测试的过程。为了训练对无人机群的控制，对 ReLeGSim 仿真进行了调整，使其能够提供具有不同飞行特性、电池供电和消耗以及光学传感器等有效载荷的固定翼和多旋翼无人机的简化模型。对所谓的无人机群控制器的行动空间进行了调整，以赋予无人机搜索和跟踪任务，以及在地面降落的可能性，从而以较低的电池消耗从地面观察目标。一旦训练成功，行为就会转移到真正的无人机系统上，在空中客车无人机中心进行飞行测试。首次飞行实验表明，在 ReLeGSim 仿真环境中训练的智能体在真实情况下表现良好，通过提高模型保真度和根据实际情况校准模型参数，减少了一些模拟与现实之间的差距。

所获得的见解旨在为将人工智能学习行为集成到真实无人机系统中提供信息，并评估其与人工控制的相似性。总之，像KITU这样的项目对欧洲国防计划（包括无人机群、人工智能和云计算）至关重要，并可能为MGCS和未来战斗航空系统（FCAS）开发计划带来益处。无人机群可实现兵力倍增并提高侦察能力，因此在战术场景中非常有价值。

图 5 - 将 ReLeGSim 人工智能体用于控制真实的无人机群

5.0 结论

总之，本文论述了未来战争在人工智能辅助指挥系统和无人技术整合的推动下发生的变革。这些变化将对作战行动产生重大影响，并要求加快军事决策周期。要实现这些未来的决策支持系统，建模、模拟和先进的深度强化学习技术的整合至关重要。这些系统将协助军事决策者评估威胁、制定最佳行动方案，甚至通过自主系统的协作蜂群行为来执行行动。

本文介绍的研究展示了如何调整和利用模拟与人工智能技术，利用 RL 优化模拟 "ReLeGSim "训练能够担任营级指挥官或控制无人机群的人工智能体。这些智能体通过自然语言命令进行交流，增强了人与人工智能的互动，同时将目标和条令纳入人工智能推理过程。军事条令感知反馈功能的整合使智能体能够在训练周期内自我完善。

虽然 "ReLeGs "和 "KITU "两项研究的目标都不是完全取代人类决策者，但它们为人工智能在军事行动中的潜力提供了宝贵的见解。RL 代理的开发虽然具有挑战性，但已展示出有希望的行为模式，包括智能地形利用和战略决策。随着研究的深入，预计还会出现更多的见解和行为模式。这项研究为使智能体具备维护军事条令和规则的能力奠定了基础，为人类决策者提供了更有力的支持，并为人工智能在各种军事场景、训练和决策支持系统中的应用开辟了道路。人工智能在战争中的未来将以协作和增强为标志，人工智能将成为与人类专业技术并驾齐驱的宝贵工具，确保 "人类做出决策，机器提供支持"。

6.0 未来之路

许多国家和国际研究工作都强调，未来各梯队作战行动的执行速度必须大大提高。与过去不同的是，过去一个旅的指挥官可以有几个小时的时间进行决策，而现在要想取得优势地位，就必须明显并逐步缩短可用于决策的时间。有几个因素促成了这种不断变化的局面。前进的道路上有几个关键的方向，可以进一步推动研究和实际应用：

1.继续培训和评估：应完成对 RL 智能体的持续培训，进一步完善其行为模式。这包括开发更复杂的战术行为，如目标优先级排序、组建预备队和反击策略。此外，应更详细地探索通过可解释人工智能（XAI）来解释 RL 智能体的行为，以增强人类的理解能力。

2.可扩展性和真实世界测试：虽然 ReLeGSim 等模拟环境提供了宝贵的训练场地，但仍应努力扩大这些智能体的规模，以便在现实世界中进行测试和部署。这包括解决硬件和计算要求，以确保实际适用性。

3.人机一体化：人工智能作为决策支持的整合必须继续强调人类的控制和干预。为人类指挥官与人工智能体之间的无缝协作开发接口和协议至关重要。

4.人工智能应用的多样性：研究重点应超越决策支持，探索人工智能在军事领域的广泛应用。这包括训练自主无人系统、为训练演习进行模拟，以及评估人工智能模型的性能和战术。此外，其他仿真模型也应与 ReLeGSim RL 架构一起应用，在 PAXSEM 等高度详细的战斗模型中训练 RL 智能体，这对于模拟密集空战或防空等场景是必要的。

5.伦理和法律方面的考虑：随着人工智能在军事行动中的作用越来越大，必须解决伦理和法律方面的问题。研究应包括有关负责任地使用人工智能、问责制以及遵守国际法和国际公约的讨论和解决方案。

6.测试与验证：人工智能模型的严格测试和验证，尤其是在复杂多变的作战场景中的测试和验证，仍应是一个优先事项。这包括评估人工智能在城市战、非正规战争和维和行动等各种情况下的表现。

7.适应不断发展的技术：鉴于人工智能发展的快节奏，研究应保持适应性和开放性，纳入新兴技术、架构和最佳实践，以保持在人工智能辅助军事决策支持领域的领先地位。大型语言模型（LLM），尤其是多模态 LLM 有可能彻底改变对态势感知、推理和行动计划的理解。这项技术具有极大的潜力，可以显著改进智能体。

总之，前进的道路包括采取全面的战略，推进人工智能并将其无缝整合到军事行动中，同时始终遵守道德和法律标准。通过解决这些关键问题，本研究可为人工智能决策支持系统的发展及其在复杂军事环境中的谨慎应用做出贡献。

成为VIP会员查看完整内容