《人与人工智能协作决策在作战任务规划中的未来》美国陆军作战能力发展司令部-美国陆军研究实验室，2022最新论文（初译版）

本研究由美国陆军研究实验室赞助，根据合作协议号W911NF-21-2-0227完成。

在日益复杂的军事行动环境中，下一代兵棋推演平台可以减少风险，降低作战成本，并改善整体结果。基于具有多模态交互和可视化能力软件平台的新型人工智能（AI）兵棋推演方法，对于提供满足当前和新兴战争现实所需的决策灵活性和适应性至关重要。我们强调了未来作战人-机器交互的三个发展领域：由人工智能引导的决策指导，高计算力下的决策过程，以及决策空间的真实呈现。这些领域的进展将使有效的人机协作决策得以发展，以满足当今战斗空间日益增长的规模和复杂性。

关键词：决策、交互、兵棋推演、人工智能、增强/混合现实、可视化

1 引言

在传统的兵棋推演中，指挥官利用一个共同的基于地图的作战地形，并在军事决策过程（MDMP，方框1）中模拟各种因素的组合如何产生行动方案（COA）、可能的反击行动、资源使用估计和预测结果（美国陆军，1997年，2014年，2015年）。在几天或几周的时间里，MDMP过程导致了一套精炼的COAs，它对作战环境做出了一定的假设，包括地形、天气以及战区资产的可用性和能力（即塑造支持主要作战行动的活动）。

方框1. 军事决策过程（MDMP）
MDMP是美国陆军解决问题的理论方法，从接到任务开始，到生成作战命令结束。MDMP被用作一种工具，帮助指挥人员审查众多的友军和敌军的作战行动。MDMP的7个步骤在规划新任务、扩展行动和执行训练演习所需的决策过程中灌输彻底、清晰、合理的判断、逻辑和专业知识（美陆军，1997年，2015年）。
指挥官在接到任务后启动了MDMP。在MDMP的第1步中，所有的工作人员和关键的任务参与者都被告知任务和待定的规划要求，包括进行MDMP的可用时间量。确定进行任务分析所需的工具，并收集与任务和作战区有关的文件。步骤2，执行任务分析，建立对任务的全面理解，包括关键的事实和假设，形成拟议的任务说明和任务分析简报，为制定COA做准备。
MDMP的第3至第6步着重于制定COA以进行分析和比较。这些步骤包括：第3步，制定COA；第4步，COA分析（兵棋推演）；第5步，COA比较；第6步，COA批准。COA是对一个已确定的问题的潜在解决方案。每个COA都要使用筛选标准来检查其有效性，如在既定的时间框架、空间和资源限制内完成任务。COA的选择过程通常涉及到兵棋推演，它试图在考虑到友军力量和敌人能力的情况下，将行动的顺序流程可视化，同时考虑到行动区域内平民的影响和要求（美陆军，2014）。战术模拟（兵棋推演）方法的好处是突出了作战行动的优势和劣势。这往往是一个反复的过程，对作战行动方案进行评估，然后根据需要进行修改，直到出现一个或多个具有最高成功概率的作战行动方案来完成任务目标。
在一个具体的行动方案得到指挥部的批准后，MDMP的最后一步是制作行动指令，这是一份给下属和邻近单位的指令，旨在协调所有参与任务的组织的活动。这一步骤涉及到所有受命令传播影响的组织之间的积极合作，并建立起对局势的共同理解。

尽管MDMP帮助指挥官了解作战环境和考虑作战方法，但这个过程有很多局限性，如时间密集、假设僵化、跨场景训练的机会有限，以及将人工智能（AI）指导纳入决策过程的机会很少。传统上，一项任务的成功与指挥部执行MDMP的能力直接相关。然而，鉴于当今多域作战（MDO）的复杂性增加（Feickert，2021年），有大量的任务指挥系统和流程，与行动相关的所有活动的整合和同步变得越来越困难，甚至到了人为无法完成的地步。由于MDMP的缺陷而导致的规划专业知识的缺乏，可能会导致不同步和不协调的行动，从而最终导致士兵的生命损失。

MDMP中没有具体描述战斗空间的可视化能力，但它显然在决策过程中发挥着重要作用。最近，集成了先进可视化能力的新系统和新技术已经被开发出来，它们可以提高态势感知，从而增强决策过程。美陆军的例子包括Nett Warrior（Gilmore，2015），它使下马战士能够直观地看到附近的友军和敌军，同时根据当地的地形协同规划战术任务。尽管这项技术将无线电和数字地图扩展到了下马战士，但它缺乏一个底层的人工智能引擎来提供决策帮助。战斗空间可视化和交互平台（BVI，前身为增强现实沙盘，ARES）是陆军技术的另一个例子，它能够为任务规划提供分布式协作，具有从任意视角和广泛选择设备的共同作战画面的二维和三维可视化能力（Su等人，2021）。BVI架构的制定是为了拉入外部计算服务，如分析管道、模型和人工智能引擎。美陆军研究实验室正在努力将这些类型的服务纳入BVI，包括用于加强决策支持的人工智能。

目前，MDMP并没有将人工智能指导纳入整体任务规划方法中。美陆军的自动规划框架（APF）（Bailey，2017）开始通过将自主技术插入MDMP工作流程来解决人工智能辅助决策问题。指挥人员可以通过APF的数字规划呈现、规划创建和规划监控工具，在任务规划和COA开发期间获得背景援助。任务执行和估计能力通过监测任务的规划和实际进展，为改进决策跟踪和支持活动提供自动协助。尽管APF为MDMP引入了基本的自动化水平，但它缺乏Nett Warrior和BVI所提供的先进的可视化和用户互动能力。

提供地面部队自动化和用户可视化能力的是美陆军最知名的兵棋推演平台--半自动化部队（OneSAF），为计算机生成的地面部队提供建模和模拟能力（PEO_STRI, 2022）。OneSAF提供了半自动和全自动的军事实体（即士兵、坦克、直升机和综合单位）的建模，在类似真实世界的战斗空间中以不同的保真度来支持特定的应用和场景。OneSAF主要用于训练，并与目前的任务指挥系统具有互操作性。它可以使用多分辨率的地形和详细的实体相关数据库来模拟广泛的作战环境。然而，OneSAF对地形和实体系统的高保真建模的优势使得它的设置和运行成本很高。它受到老化系统的限制，而且众所周知，士兵需要大量的培训来学习如何操作模拟，使用起来很困难（Ballanco，2019）。OneSAF的复杂功能并不适合开发人工智能能力，以实现快速和敏捷的战士-机器决策。

除了MDMP和上面提到的陆军平台外，最近将人工智能纳入决策过程的工作包括一些方法（Goecks等人，2021a），在模拟人类决策过程方面取得了一些成功。一般来说，人工智能在决策变量有限的问题上取得了一些成功，如资源分配（Surdu等人，1999）、飞行模拟器（Drubin，2020）和更简单的场景。正在进行的挑战包括需要提高人工智能的能力，以解决有多个行为者、不完整和可能冲突的信息、不断变化的单位行动和环境属性的复杂决策，以及需要将这些决策的后果在许多空间和时间尺度和领域内可视化。

以下各节描述了对MDMP的潜在改进。"未来军事决策过程所需的进步"一节概述了支持MDO决策的三个研究领域，并以图表形式描述了这些研究领域与军事理论决策方法之间的关系。"未来军事决策过程所需的进步 "一节中的小节对每个研究领域进行了更深入的讨论。"展望推进人-人工智能团队决策的交互技术 "一节概述了未来的作战人员-机器接口（WMI）的发展方向，重点是与决策有关的人-人工智能团队的跨学科研究。

2 未来军事决策过程所需的进步

军事决策过程在支持MDO复杂决策方面的局限性，突出了在三个研究领域的改进需要。首先，有必要将人工智能产生的指导和辅助决策支持纳入MDMP。这既包括进一步开发和整合人工智能到战斗空间决策规划，也包括进一步改善人工智能决策过程的可解释性和透明度（Chen等人，2018）。第二，有必要在战略层面以及战术边缘，尽可能地将决策分析与高性能计算（HPC）的力量结合起来。这将能够利用HPC系统的力量来支持建模、分析和计算时间，同时整合和同步来自所有战区领域的信息。最后，有必要利用先进的可视化技术，如混合现实技术，对决策空间进行更准确和互动表述。不是简单地在一个固定的时间尺度上显示地形的二维渲染，而是需要可视化不同领域的决策是如何相互作用的，并利用混合现实技术来提高理解的吞吐量，并产生平面显示不可能的洞察力。

除了MDMP之外，其他更广泛适用的支持战斗性问题解决的军事理论包括：DOTMLPF[例如，学说、组织、训练、物资、领导、人员和设施；（美陆军，2018年）]，这是一个确定差距并为当前和未来作战要求提出设计解决方案的框架；以及METT-TC[例如，任务、敌人、地形和天气、部队、可用时间和民事考虑；（美陆军，2019年）]，这是一个结构化框架，用于捕捉任务相关因素的状态，以便在军事行动期间进行共享评估。这些理论定义了MDO战场的信息背景，构成了应用于上述三个研究领域的军事决策的核心基础。如图1所示，在为人类和人工智能指挥开发复杂军事决策空间的新表述时，研究进展和MDO相关理论相互借鉴、相互启发、相互加强（美陆军，2010）。

图1. 新型作战人员-机器交互（WMIs）和人工智能辅助决策所需的三个研究发展领域，以支持和加强基本的MDO理论[右下图来源：Lebsack（2021）]。

2.1 人工智能导向的决策指导

需要新的人工智能支持的WMI，以利用人工智能决策方面正在取得的进展，并为复杂的适应性决策的人工智能学习作出贡献。在简化的战斗空间中测试人工智能决策辅助工具是开发过程中重要的第一步，也是将人工智能纳入更成熟的战斗空间平台（即BVI、OneSAF）的前奏。开发用于决策辅助实验的人工智能测试平台可以在MDO中产生能力越来越强的潜在COA建议。图2显示了陆军开发的两个人工智能测试平台的例子。

图2. 两个ARL人工智能测试平台的例子。左边：ARL Battlespace（Hare等人，2021）（ https://github.com/USArmyResearchLab/ARL_Battlespace ）。右边：ARL的Simple Yeho测试平台。图片由C. Hung制作。

人工智能测试平台能够开发出汇集所有领域信息的AI，并计算出人类和AI智能体的风险和预期回报。图2的左侧显示了ARL战斗空间测试平台（Hare等人，2021年），它是从头开始开发复杂决策的新型人工智能的理想场所。它对战斗空间的抽象强调了军队相关场景下的核心推理原则，在这种情况下，用蜜罐进行网络欺骗。较小的网格空间使人工智能的学习和发展能够集中在不确定性下的复杂推理，有多个友好和敌对的agent。图2的右侧显示了ARL的Simple Yeho测试平台，它提供了将人工智能开发与更多真实世界场景中的默契推理结合起来的能力，有多个基于地形的海拔高度、视线范围、障碍物、树叶（隐蔽）、道路和城市区域。红色阴影和黑色线条表示任务的起点和终点、左右边界以及人工智能建议的路线。这种额外的真实性使其能够与MDO理论相结合，包括DOTMLPF和METT-TC，并使人工智能与自然的、机会主义的士兵行为共同发展。这两个人工智能测试平台都可以扩展为传统和沉浸式混合现实WMI开发平台。

使用渐进式和可扩展的人工智能测试平台，可以调查现有人工智能的几个基本限制，特别是对于具有不确定性的复杂和适应性决策，以及人类和AI智能体的协作和对抗。对多智能体的协作和对抗性决策进行建模可能特别复杂，因为其递归性质，其他智能体是模型的一部分（Goldman，1973；Grüning和Krueger，2021），需要对决策特征、个性化的价值、风险规避、记忆和注意力进行动态和不断发展的估计。这些具有高度不确定性、复杂性和动态性的情况是人类擅长的领域，适当设计的交互界面和人工智能测试平台的人机协作可以提供加速和更有效的决策。对于有效的团队合作，新颖的WMI应该帮助作战人员筛选复杂的信息，并帮助人工智能发现决策的隐含规则。下面，我们提供了关于人机协作如何有效的案例。

多域兵棋推演中需要的复杂决策是开发有效人工智能决策辅助工具的直接挑战。最近人工智能在围棋、国际象棋、Minecraft和大富翁等游戏中的成功（Silver等人，2017；Goecks等人，2021b；Haliem等人，2021）是基于对世界现有状态有完整了解的游戏（即 "开放 "游戏），而兵棋推演平台通常包括关于作战环境的不完整（如星际争霸）、不确定或欺骗性信息（Vinyals等人，2019）。不确定性也可能来自变化的物理学或其他环境规则，正如在《愤怒的小鸟》中所探索的那样（Gamage等人，2021）。由于世界状态、不同行动者的状态以及所采取的行动不确定性，知识的缺乏使得人工智能agent难以计算未来行动的风险回报情况（Cassenti和Kaplan，2021）。不确定性也限制了人工智能估计其他行为者的风险回报概况的能力，而这是计算有效的博弈论策略所需要的。人工智能被可能的最优和近似最优选择的广度所淹没（Lavine，2019），即由于信息有限而选择错误的选项，这种情况并不罕见，因为人类在制定有效探索隐藏信息的策略时，采用启发式方法进行有效的选择和预测（Gardner，2019）。为了帮助发展人工智能的隐性知识和探索能力，新型的WMI需要有效地解释和展示决策景观，以使作战人员能够快速和自然地浏览可能的选择，同时使人工智能能够在不施加认知负担的情况下从人类的决策中机会主义地学习（Lance等人，2020）。这种机会主义学习可以包括：例如，凝视跟踪，以捕捉吸引人类兴趣和意图的视觉区域和未标记的目标。它们还可以包括建立在自然的士兵选择行为基础上的行动者批评方法，以改善人工智能对人类专家在不确定、不完全信息和欺骗的情况下如何优先考虑某些选择的学习，这取决于任务相关的背景。

开发人工智能的WMI的另一个基本挑战是如何有效地整合和显示MDO中所有五个领域的信息，特别是空间和网络，因为这些领域的信息具有不同的时空尺度（Gil等人，2018）。对于网络，决策的规模和速度可能比人类处理和理解的能力更快，需要人类的输入来指导半自动化的决策，以及实施进攻和防御性欺骗策略的人工智能。WMI需要能够以这样的方式显示决策图景，即可以解释一小部分最优和接近最优的决策策略（例如，图3中的决策树）。这应该包括对关键agent在不确定情况下的未来状态和风险回报情况的估计（Hare等人，2020），以使有效的博弈论决策能够被共同开发和相互理解。

图3. 在顶部，是BVI网络战术规划器应用程序中友军与敌军战争场景的三维视图。三维视图提供了一个比二维视图更真实的决策视角，例如，显示友军（蓝色）和敌军（红色）机载预警系统（AEWs）和周围地形的海拔。这使得快速审查可能的视线和相对于周围地形的感应。下面是人工智能的导航决策树，为人工智能计算的几个关键选择的风险/回报概况以及它们如何映射到地形上提供透明度。这种抽象的决策空间还可以整合非空间决策，例如网络欺骗。虚线表示与友方AEW的通信联系和对敌方AEW的可能干扰。图片由C. Hung制作。

这些挑战为有效的WMIs设计提供了参考。也就是说，我们需要有能力从不同的来源（包括从其他国家的决策辅助工具）提取信息，以及一个能够承载整合这些信息的计算能力的架构，同时还要处理基础的人工智能计算（用于学习和部署）。我们还需要共同开发一个界面和算法设计，以适时地利用人类和人工智能agent的优势并减少其局限性。

2.2 高计算能力下的决策过程

在复杂的决策过程中，需要大量的计算能力来处理和记录所有组件、实体和状态空间。从积累的动态状态空间的数据集中建立过去、现在和预测模型，需要利用HPC资源来产生分析性的见解，并在决策背景下创建有用的表述。

实施HPC分析工作流程的一种方法是使用持久性服务框架（PSF）。PSF是一个最近可用的分布式虚拟化解决方案，它可以通过一个基于网络的前端实现对HPC服务的非传统访问，而不像传统的HPC环境，计算节点在特定的时间段内以批处理模式分配给用户。此外，PSF提供对数据、数据库、容器化工具集和其他托管平台的分布式连续访问（Su等人，2021）。

在一个PSF方法的例子中，一个模拟引擎连接到PSF，用于记录人类和人工智能做出的所有决定。这允许分析在任务规划和COA开发过程中发生的决策行为，以及识别决策模式和战略，以开发竞争性和现实的兵棋推演场景。一个战斗空间可视化平台可以托管在PSF上，并使用消息传递协议来更新所有连接的设备接口。来自模拟引擎的状态信息可用于生成战斗空间和参与作战单位的图形表示。

使用PSF方法并利用HPC资源，可以实施人工智能辅助决策机制，利用大数据摄取和分析，同时可供地理分布的用户用于协作决策工作和 "永远在线 "的个性化培训和红色团队。连接到PSF托管服务器的各种混合现实显示模式可以支持一系列作战场景，从战略层面的指挥和控制到作战边缘的更多移动战术使用。

2.3 决策空间的真实呈现

用图形表示各级行动的军事决策战略需要新的可视化方法，这些方法可以应用于以规则变化、认知状态、不确定性以及个人偏见和启发式方法为特征的动态环境（Dennison等人，2020；Hung等人，2020；Raglin等人，2020）。战斗空间的视觉表现应该在技术上尽可能准确和逼真，但又保持在人类可以理解和解释的认知水平（Kase等人，2020；Larkin等人，2020；Hung等人，2021）。融合了混合现实技术的先进可视化方法有可能更好地表现多领域战争的变化特征及其不断变化的威胁和动态环境。随着最近混合现实可视化设备的技术进步，成本降低，硬件的可靠性和实用性显著提高，混合二维和三维可视化方法现在已经成为可能。

由多个二维显示器组成的混合现实方法增强了更先进的三维可视化能力，可以为指挥人员提供理解复杂的兵棋推演状态空间所需的洞察力（Su等人，2021）。当需要一个共享的战斗空间表示时，可以通过在不同的可视化模式上实现多个协调的视图来实现协作的战略规划模式，以根据分布式指挥人员的输入进行互动更新。

BVI（Garneau等人，2018）平台表示地理空间地形信息和地图图像，允许指挥人员建立和修改战术任务规划和COA。作为一个数据服务器，BVI将地形和作战数据分发给支持多种可视化模式的客户端应用程序，包括头戴式显示器设备、基于网络的界面、移动安卓平板设备和混合现实设备（例如，HoloLens 2、Oculus Quest）。

例如，图3（顶部）显示了位于加利福尼亚州圣贝纳迪诺县欧文堡国家训练中心的高分辨率地形上的友军与敌军的兵棋推演场景（Wikipedia, 2021）。与MDMP期间经常使用的传统2D地图显示相比，战斗空间的3D视图可以从多个观察角度提供更丰富的用户体验。三维视图，在BVI的网络战术计划器（WTP）中，将地形和人工特征的空间信息以及由MIL-STD 2525C符号描绘的单位位置可视化（美国防部，2014）。可以想象，地理空间视角，如BVI提供的视角，支持决策者对动态战斗空间环境的理解。与可导航的人工智能增强的决策空间（图3，底部）搭配，组合的视角可以使人们更好地理解视觉空间依赖性、影响和因果关系、估计的风险和价值、不确定性以及复杂决策的欺骗性。将这种以地理空间和决策为中心的视角与人工智能相结合，可以提供必要的广度，以协调物理行动与网络和其他非空间领域的行动，跨越多个时间尺度，并具有快速适应变化的任务目标的灵活性。

3 人-人工智能团队决策的交互技术展望

人工智能和人-人工智能团队的快速发展需要WMI同步发展。随着新型人工智能对有价值的COA产生更好的预测，并能更好地处理复杂的决策，它们也必须利用人类的专业知识，学习如何处理具有高度不确定性、欺骗、隐性知识和博弈论的决策。相反，人工智能的推理必须既抽象又能与兵棋推演环境相联系，以实现透明和信任，同时又不造成过度的认知负担。基于三维混合现实的WMI可以利用和增强人类固有的三维认知和预测能力（Welchman等人，2005；Kamitani和Tong，2006；Kim等人，2014；Boyce等人，2019；Krokos等人，2019），如果设计得当，其交互将感觉自然，同时扩大显示多个领域的信息的能力，同时使AI能够适时地从用户的决策中学习。

我们强调了三个关键的发展领域，即人工智能引导的决策指导，支持这种指导的计算基础设施，以及决策透明度的混合现实表现的发展。这些领域的进步需要跨越许多不同学科的专业知识。新的人工智能发展需要融合神经科学、心理学和数学的思想，以克服复杂决策中长期存在的问题的瓶颈。这包括跨时间尺度的学习和变化环境下的灾难性遗忘，以及更具体的兵棋推演问题，如具有不确定性、欺骗和博弈论的多Agent决策。计算基础设施也需要发展，因为计算能力和数据框架对于在战术边缘产生人-人工智能团队的共同操作图来说都是必不可少的。为了有效地开发，应该通过一个共同的框架来抽象出专有的限制和软件的依赖性，并为使用和故障排除提供清晰的文档，以使学术界、政府和工业界更好地专注于解决人与人工智能的合作问题。这个通用框架应该包括有效的信息传递，同时提供灵活性和适应性，以满足人工智能开发和人类用户在训练和实际使用环境中的需求。最后，交互技术的开发本身需要跨学科的协同专业技术。一个基础性的问题是如何压缩信息使之被用户有效地理解，以及如何最好地利用用户的互动来进行机会主义学习。人类的大脑并不处理所有的感官信息，而是对世界进行预测和假设，以便在信息不完整的环境下节约计算。一个有效的WMI应该同时预测潜在的决策结果以及个人用户的期望和假设。此外，人工智能决策辅助工具必须估计用户的默契，使其能够提供最相关的信息和最有希望的选择，这些信息来自整个作战领域。

结论

信息作战和指挥与控制（C2）是美国陆军可以向盟友和伙伴提供的两种能力。在未来的作战环境中，不仅要为动能作战做准备，而且要为混合作战和以信息为重点的战争做准备。这需要在复杂和默契推理的人工智能能力方面取得进展，在能够提供持续训练、分布式混合决策和大数据分析系统方面取得进展，以及在人与人工智能协作决策和机会主义学习方面取得进展，以实现人工智能的持续进步和人与人工智能的共同适应。这些进展中的每一项都需要跨学科的计划性努力，以克服复杂的技术挑战，创造新的决策原则、理论和理论方法，包括持续开发综合测试平台和技术，以实现政府、学术界和工业界的合作和协同发展。

成为VIP会员查看完整内容