推荐！《提高军事行动方案（COA）效能的智能兵棋推演方法》2023最新论文

在这项研究中，提出了一种智能兵棋推演方法，以评估军事行动方案在作战成功和资产生存能力方面的有效性。拟议的应用是基于经典的军事决策和规划（MDMP）工作流程开发的，以便于在现实世界应用中实施。本研究的贡献有三个方面：a）开发一个智能兵棋推演方法，以加速MDMP中的行动方案（COA）分析步骤，从而为军事行动创造更多的候选COA；b）产生针对对面部队的有效战术，以提高作战成功率；以及c）为未来的系统开发一个高效的、基于可视化兵棋推演的MDMP框架，这些系统需要一个小型操作团队来监督一个自动智能体网络。为了评估系统的能力，执行了几个交战场景示例，并给出了结果。此外，研究了自动智能体的兵力组成问题，并提出了具有超参数调整结构的兵力组成算法。

引言

随着无人系统在复杂任务中的作用越来越突出，包括情报、监视和侦察行动，最近的应用倾向于转向异构的无人系统组合之间的合作，以执行这些行动并获得高任务成功率[1]。为了完成复杂的任务，异质智能体之间的合作带来了对多域作战能力的需求，其中人工智能（AI）辅助的兵棋推演策略发挥了重要作用[2]。特定的目标，如使用人工智能来发现战术，这可能会通过现有的军事能力提高作战效益，或可能为新的军事能力提出有效的使用概念。人工智能决策最近集中在开放型游戏，即所有玩家都能看到所有的游戏状态，或封闭游戏，即存在有限的兵棋灵活性。然而，在战术和战略层面上对决策策略进行建模需要有新的算法，这些算法可以在规则变化、不确定性、个人偏见和随机性的动态环境中运行[3]。

战术模拟是MDMP的一个重要组成部分，MDMP是军队制定作战计划、预测敌方部队的反击行动和评估拟议作战计划有效性的理论方法，因为它提供了一个安全和替代性的与武装冲突有关的一些情况和决策动态的再现。虽然 "兵棋推演"一词没有统一的定义，但普遍接受的定义可以追溯到19世纪初。它被认为是通过任何手段，使用特定的规则、数据、方法和程序来模拟军事行动[4]。因此，在进行MDMP的定义和重要性之前，必须对兵棋推演做出明确的说明。MDMP始于从上级总部收到的任务。然后，通过利用其他来源的情报进行任务分析。在下一步，处理指挥官的意图、行动要求和可用资源，以制定行动方案（COA），包括任务组织计划。在制定行动方案后，通过兵棋推演进行行动方案分析，重点是行动、反应、反击和裁决过程，以重新确定行动方案和潜在决策点。

图1 军事决策过程总结。

在MDMP中，COA分析通常被称为兵棋推演，它将COA的发展与COA的比较和批准联系起来[5]。在比较步骤中，每一个COA都根据规定的标准进行评估，如简单性、机动性、热能、民用控制和规模性，这些标准在一个决策矩阵中被赋予了评估的权重。此外，从比较步骤中选出的COA应具有最小的风险、最大的安全性和灵活性。然后，根据COA的比较结果完成COA的审批过程，在最后一步，指令生成并与相关单元共享[6]。从总体上看，图1给出了MDMP的整体流程。

在这项研究中，提出了开发情报、监视和侦察(ISR)和压制敌人防空(SEAD)作战计划，这些计划由上层人工智能和辅助的、分布式的决策策略支持，以评估生成的COA的成功概率、资产的生存能力和作战效率。这个过程是在经典的MDMP方案的基础上发展起来的，以便于在现实世界的应用中实施，它能够在行动前或行动中提供快速评估和客观比较COA。这个过程从接收来自MDMP第二步的任务分析结果开始。在COA开发步骤中，最初的任务分配过程是利用CBBA算法进行的，该算法能够解决具有分布式的通信结构、异质集合和在线重新规划要求的分配问题。在创建了几个行动计划（即COA）后，它们被输入兵棋推演过程以评估其有效性。之后，这些行动方案在成功概率、生存能力和成本方面被相互比较，最有效的方案被送去审批步骤。图2给出了重点框架的总体概况。

图2 COA生成框架。

本研究的贡献有三个方面：a）开发一种智能兵棋推演方法，以加速MDMP中的行动方案分析步骤，从而为军事行动创造更多的候选COA；b）产生针对对面部队的有效战术，以提高作战成功率；c）为未来的系统开发一种有效的、可视化的和强大的基于兵棋推演的MDMP框架，这些系统需要一个小型的操作团队来监督自动智能体网络。本研究的其余部分结构如下：在第2节，将对文献中的相关研究进行调查。第3节描述了问题陈述，第4节给出了针对该问题的解决方案所需的背景。在第5节中，将给出在创建这项工作时遵循的方法，第6节展示了模拟研究的结果。最后，第7节是文章结尾。

相关工作

兵棋推演模拟被用作不同领域的决策工具，从商业到军事[8]，从冲突场景到监视或危机演习，从军事角度看搜索和救援任务[9] 。在Filho等人[10]中，使用兵棋推演的方法优化了无人机在超视距战斗中的位置。考虑到兵棋推演中敌人的不确定性，研究了友军蜂群团队战术编队的有效性。Chen等人[11]提出了一个基于决策树的城市暴雨情况下的紧急救援兵棋推演模型。在该模型中，虽然敌人的任务仅限于道路积水，但友军团队由试图防止这种积水的应急车辆组成。Su等人提出了基于地理信息系统(GIS)的兵棋推演援助平台，以防止台湾地区的蓄水[12]。基于兵棋推演的策略的另一种使用方法是危机演习，Song等人指出，兵棋推演是一种有效的危机演习方式，成本低，方式方便[13]。

一个有效的兵棋推演策略取决于对下属指挥官完成任务所需资产的准确和最佳分配/配置[7]。许多方法已经被开发出来，使智能体能够根据已知行动的任务列表在他们之间分配任务。这些方法的主要思想是不仅要提高任务的有效性，而且要降低行动成本和风险。集中式任务分配，需要在智能体和中央服务器之间建立通信联系，为整个团队生成一个分配计划。由于集中式系统能够减少地面处理要求的负担，它们能够有效地使代理人更小、更便宜地建造。此外，据调查，在集中式任务分配系统中使用启发式方法，如遗传算法[14-16]和粒子群优化方法[17-19]，在计算时间方面有更好的表现[20]。另一方面，由于集中式任务分配的结构，智能体和行动基地之间应保持持久的通信，以提供合作，这需要发送/接收操作更新。这种对通信系统的要求直接影响到智能体组的能力和稳健性。

与集中式应用相反，可以通过利用分布式方法来提高兵力组合的性能和稳健性，在这种方法中，需要智能体之间的通信来获得对特定任务集的共识。这种类型的通信拓扑结构在智能体损失、通信损失和任务列表的实时更新（即添加和删除任务）的情况下增加了兵力组合的稳健性[21]。在这种情况下，文献中已经研究了消除对中央基地的需要的分布式规划方法。这些方法中的大多数都假设有完美的通信，并有一定的带宽，以确保智能体在规划前有相同的态势感知。然而，这在现实世界的场景中很容易被违反，包括搜索和救援任务，在这些场景中，智能体的通信范围有限或通信渠道的带宽有限[22]。在态势感知不一致的情况下，分散的任务分配算法可以通过利用基于共识的算法，如基于共识的捆绑算法（CBBA）来增强，以便收敛在一个一致的解决方案上[23-25]。不仅有可以集成到分布式框架中的共识算法，文献中也有基于部分可观察马尔可夫决策过程（POMDP）的方法[26]。尽管共识算法保证了信息的收敛，即达成共识，但这可能需要大量的时间，并且经常需要传输大量的数据，这可能导致在低带宽环境下的高延迟，并增加了为无人系统找到最佳任务分配解决方案的处理时间[27]。也有一些关于中间层次结构的报告，即混合结构，介于集中式和分布式结构之间，用于从两种方法的优点中获益[28]。

尽管有许多尝试试图解决无人驾驶异构飞行器的任务分配问题，而且前面提到的所有研究都考察了底层自动化（以规划和控制算法的形式）分配异构无人驾驶飞行器（UxVs）网络的能力，但在产生COA的MDMP中整合增强/高级人工智能生成的指导和辅助决策支持是至关重要的[29]。一些初步的尝试，如国防高级研究计划局（DARPA）的 "拒止环境中的协作行动"（CODE）计划和 "分布式战斗空间管理"（DBM）的广泛机构公告（BAA），被提出来改善人类与自动化的协作和决策，通过执行一系列自动化和自主行动来协助战斗管理者和飞行员[30]。然而，这种具有不同任务分配方法的框架可能是脆弱的，无法对突发事件做出反应。这样的系统可以通过人类操作者带来他们基于知识的推理和经验来缓解[31]。

因此，很明显，任务规划者和平台内的操作者框架都应该被仔细构建。模拟和分析这种框架的最重要的平台之一是兵棋推演，它被用来执行关于未来部队资产、军事能力的决策，并为许多行动做准备。兵棋推演能够以许多不同的方式执行，从研讨会的兵棋推演，到手工棋盘游戏，再到复杂的计算机辅助兵棋推演[32]，其中由计算机判断交战的后果[33]。

关于该主题的初步研究以来，智能兵棋推演对于促进军事决策是否有价值一直受到质疑[34]。这些系统在决策过程中的作用也在四个主要学科下进行了讨论，即传感、态势感知、计划生成和学习[35, 36]。在这些讨论之后，随着人工智能学科的进步和技术的发展，据报道，将人工智能应用于军队的MDMP具有很大的潜力，可以支持指挥中心对竞争激烈和更加复杂的战场进行规划，因此Schwartz等人在辅助性人工智能架构中用遗传算法（GA）来解决这个问题[37]。Boron等人将基于人工智能的兵棋推演整合到决策过程中，他们在不同的战斗场景中使用强化学习（RL）来评估其算法的性能[38]。Xin等人考虑了以往研究中通常被忽略的不确定性，因此他们提出了一个名为混合智能多分支兵棋推演的解决方案，通过融合基于RL的人工智能方法和人类智能来考虑不确定性[39]。最近，Tarraf等人提出了一个兵棋推演框架，其中规则和交战统计用于商业桌面兵棋推演，以实现远程操作和完全自主的战斗智能体和具有AI/ML支持的态势感知的智能体[40]。Goecks等人讨论了过去和现在关于游戏和模拟器以及人工智能算法如何被调整以模拟军事任务的某些方面的努力，以及它们如何影响未来的战场。此外，他们研究了虚拟现实（VR）和视觉增强（VA）系统的进展如何为游戏平台的人机界面及其军事提供新的前沿[41]。

基于共识的捆绑算法(CBBA)

在MDMP的步骤2中确定了问题、任务要求、假设和评估标准后，重要的是将蓝队的军事单位分配给合适的红队任务。这是通过利用基于共识的捆绑算法（CBBA）[27]来完成的，该算法支持分布式的、异构的任务和动态环境。在本节中，将给出和描述CBBA算法的细节。

CBBA是一个去中心化的基于市场的协议，它为异质智能体网络上的多智能体多任务分配问题提供了可证明的良好近似解决方案，并通过使用去中心化的通信方法来解决协调异质自主车辆的任务分配问题[27]。这种类型的通信拓扑结构消除了对中央基地的需求，并且在智能体损失、通信损失和任务列表的实时更新（即添加和删除任务）的情况下，它增加了任务组的稳健性。CBBA是由两个阶段交替进行的迭代组成的：第一阶段是捆绑构建阶段，其中每个车辆贪婪地生成一个有序的工作捆绑，第二阶段是共识阶段，其中相邻的智能体之间通过本地通信找到并解决冲突的任务。图3展示了CBBA的内部循环。

方法

A 仿真环境

为了创建可支持、可扩展和易修改的模块化架构，我们决定将智能任务规划器分成四个子组。引擎模块包括主要的引擎脚本，它包含了关键的方法，如任务分配、寻路、战略、交战和其他一些重要的方法，以便在模拟过程中前进。引擎脚本中的任务分配方法使用基于共识的捆绑算法（CBBA），该算法也在引擎模块中。环境模块包括脚本中的世界对象，它给出了仿真环境的边界，也是这个环境的网格表示，并附有任务、地形、敌人存在的费用。模型包含关于模拟过程中使用的代理和任务的必要信息。为了创建异质智能体，UAV、UGV、USV和近距离防空（CAD）智能体对象被单独创建，团队对象被创建用于设置敌方团队并跟踪团队所做的动作。视图模块负责以视觉角度表示结果。图4给出了智能任务规划器的模块结构概要。

B 生成杀伤力热图

在模拟环境中，杀伤力热图在空中、地面和海上层生成，以模拟特定区域内敌对力量的火力。这些热图是基于内核密度估计（KDE）算法生成的，该算法用于估计地图上某一点相对于对面部队位置的危险等级（即对面部队的有效等级）。在这项研究中，假定军事单位根据范围的致命性分布被建模为夸特函数或埃帕尼科夫函数，如公式5所示。

其中d是军事单位与地图上指定点（即相关六边形的中心）之间的距离。对于在d=0时的杀伤力计算，分布的最大值被缩放为1。图5中给出了空中、地面和海上层的热图生成结果示例。这里给出了a)地面层、b)海军层和c)空中层的红队单位的杀伤力热图。在地面层，UAV、UGV、USV和CAD单位都是对蓝军的有效威胁，在给定的自由区域。在海军层，USV是主要威胁，但UAV、UGV和CAD也是有效的。在空中层，乍一看，似乎对蓝队没有威胁，因为红队的UAV、UGV和USV对蓝队的空军没有效果。然而，如果CAD资产存在于该地区，它将是对蓝队的关键威胁，结果将是致命的。

图 5 红队在 a) 地面、b) 海军和 c) 空中层的杀伤力热图。

图 6 示例案例：地面层红队的杀伤力热图

图6给出了模拟环境的另一个例子。为了便于可视化，没有在环境中插入CAD单元。这里给出了地面层的无人机、UGV和USV的杀伤力热图。在这种情况下，与地面层的USV相比，UAV和UGV的杀伤力相对较高，因为USV的射程和效率有限。这可以通过利用表1中给出的军事单位的效率表来直接模拟。该表提供了每种类型的资产对不同层的破坏效率的信息。

表1每种资产的损害效果表。

C 战斗模型

战斗模型对战斗实体、它们的行为、活动和相互关系进行抽象和简化，以回答与国防有关的研究问题。没有一个通用的模型可以回答所有的问题，即使可以构建这样的模型，它也会变得比现实更复杂，因为它不仅包括真实的系统，还包括想象中的系统。战斗模型可以是随机的，也可以是决定性的。直观地说，一个随机的模型假设关于某种情况的不确定或概率性的输入，并对结果作出不确定的预测。一个确定性的模型准确地指出将会发生什么，就像没有不确定性一样。更正式地说，一个随机模型需要用概率理论的术语来描述，而一个确定性的模型则不需要。

其中F, HP, L, PH, PD , PT, PW, PL分别是总火力、火力健康度、致命性、命中概率、探测概率、瞄准系统可靠性、武器可靠性和层效率。在这里，建立军事单位的损伤矩阵也很重要，它决定了它们在交战中对敌军的有效性。在模拟环境中，损害矩阵被假定为表1中的内容。通过使用这些定义，每个资产的生存能力被建模为公式7和8中给出的。

其中Fk、Mk是相关团队在时间k的火力和机动性。Fok是敌对部队在时间k的火力。

D 评估指标和作战评估

有效的评估包括定量（基于观察）和定性（基于意见）指标。人的判断是评估的组成部分。任何评估的一个关键方面是它对人类判断的依赖程度，以及对直接观察和数学严谨性的依赖程度。严密性解决了不可避免的偏见，而人的判断将严密性和过程集中在往往是成功关键的无形因素上。口头定义是直截了当的陈述，但为了以智能方式训练整个系统，将这些句子表示为数学指标是关键。从口头到数学指标定义的过渡是一个开放式的程序，它可以通过手动选择的方式来捕捉最佳决策[42]。

为了评估红队和蓝队的机动性和火力能力，制定了几个战斗力评估指标，如公式9和10所给出。

作战兵力组成

兵力的组成与CBBA的评分功能密切相关，具体如下。

这个函数给出了一个智能体在时间tj到达任务时从任务j中得到的分数。分数由两部分组成，第一部分是任务的名义奖励，Rj(aj)，它是aj的函数，即分配给任务j的智能体指数，第二部分是折扣函数，它是任务j的到达时间的函数，tj。λ是一个折扣系数，用于解释目标值随时间的减少。这个系数包含在目标函数中，以更好地代表现实世界中的问题，即访问目标的价值与访问的时间成比例地减少[43]。

由于折扣系数改变了任务到达时间的影响，它需要根据世界的大小进行调整。因此，我们提出了以下结构，从图7中可以看出，以克服选择最佳折扣系数和兵力配置的问题。