本报告描述了2021财年美国陆军作战能力发展司令部（DEVCOM）陆军研究实验室（ARL）未来风险项目 "决策动力学、欺骗和博弈论"的研究工作。为了提高指挥和控制多域作战的决策辅助工具的有效性，有必要开发能够协助复杂决策的人工智能（AI）工具。该项目开发了一个人工智能测试平台--ARL战斗空间（ARL Battlespace），用于创建和研究复杂推理的人工智能决策辅助工具。ARL Battlespace是一个由友好和敌对的人类和人工智能Agent组成的多人网络兵棋推演工具。分层贝叶斯模型的初步结果说明，在具有不确定性、欺骗和博弈论的情况下，具有复杂推理功能的人工智能多学科发展框架具有潜力。该项目还开始开发一个基于与战场可视化和交互平台以及高性能计算持久服务框架的潜在集成的人机协作决策框架。这些成果为改善人-人工智能团队的复杂决策和协作能力开启了研究的大门。

1. 简介

作为美国防部人工智能（AI）战略的一部分，美国陆军作战能力发展司令部（DEVCOM）陆军研究实验室（ARL）正在开发基于人类系统适应战略的研究项目和技术，包括开发基于人-AI团队决策和相互适应的超人能力的目标。这些新能力对于解决陆军的多域作战（MDO）战略是必要的，特别是其渗透和分解阶段，在此期间，人工智能辅助决策可以增强指挥官处理高速和大量信息以及地面、海上、空中、太空和网络领域的复杂动态的能力。一个关键的挑战是，现有的人工智能算法，对于复杂的决策来说是远远不够的，而且对MDO相关场景的概括能力有限。另一个挑战是，现有的陆军理论和决策支持程序没有将人工智能纳入军事决策过程（MDMP），而陆军的自动规划框架（APF）刚刚开始解决这一差距。此外，现有的人-人工智能编队决策理论和技术仅限于简单的决策，为复杂的深度决策在提供人工智能透明度方面非常有限，在这种情况下，多种依赖性、不确定性以及信息领域和行为者与复杂的人类、物资和环境动态相交。它们与人类专家的隐性推理协同工作的能力也很有限。发展这些能力需要一个综合的、多学科的研究方法，包括为新的人工智能研究和人类与人工智能的编队协作开发人工智能试验基地。

对于兵棋推演，有必要开发能够模拟包括战术和战略层面在内的多个梯队的决策测试平台。现有的兵棋推演决策工具，如Opsim、AFSIM和OneSAF，可以在多个规模上对许多因素进行建模和模拟，以预测基于战略、物资能力和资源的结果，但它们受到老化系统的限制，有经验的士兵可能难以学习，也不太适合开发人工智能和人类+人工智能编队协作的能力。最近，人工智能能力的快速上升为开发和纳入新型人工智能作为兵棋推演的决策辅助工具打开了研究的大门。最近人工智能推理的改进（例如，基于深度强化学习）是基于环境状态完全已知的“开放”游戏（例如，跳棋、国际象棋和围棋），它们是基于有限的合作性或欺骗性。即使在有额外复杂性的情况下，如环境的不确定性（愤怒的小鸟、雅达利），决策的复杂性、灵活性和对多人兵棋推演的可转移性也是有限的（如扑克、Minecraft、星际争霸[图1]）。尽管这些模型可以深入探索决策，但它们只限于选择结果的潜在价值可以很容易测量和量化的条件。兵棋推演环境给人工智能学习带来了困难和未解决的挑战，因为有许多信息不确定性的来源，不仅来自环境，也来自人类和人工智能Agent。人工智能需要适应不断变化的规则和战略，迅速减轻出乎意料的敌方能力，并利用新的机会和友好的能力。人工智能还需要与他们的人类队友相互适应，他们需要有默契的推理能力来与人类专家协同工作，并补偿个人的偏见和启发式方法以及变化的认知状态。与博弈论等经典方法不同的是，未来状态的预期效用可以根据合作或不合作的选择对有限的行动集进行明确的量化，兵棋推演提出了跨环境和社会动态（包括合作性和欺骗性）以及跨多个时空尺度和领域的相互作用的可能性，这使人工智能学习决策如何与未来状态价值相联系的能力受到影响。

图1 ARL在更广泛的人工智能研究战略中的Battlespace平台

解决这一差距需要持续的基础研究工作，实验的重点是为决策中的具体问题发现原则和开发新的算法，并有能力将这些原则和算法与MDO的兵棋推演联系起来。例如，在具有不完善的知识和不确定性的复杂情况下，提供接近最佳解决方案的人工智能可能比提供单一的"最佳"解决方案更有帮助。这种解决问题的方式与人工智能的透明度也需要探讨。对近乎最优和不确定性等条件进行实验，并采用新的作战人员机器界面（WMIs），可以产生新的算法、通用工具和原则，更好地协同人类和人工智能对复杂决策的探索。

1.1 军队的相关性和问题领域

陆军战略科技（S&T）计划的一部分是为 "超人类"的决策和行动开发能力。对于科技计划中的"人-系统适应"部分，预期的结果是将人类特有的能力和机器的新兴能力结合起来，最大限度地提高速度和选择，以有效应对2035年及以后的社会技术环境的复杂性、智能化和动态性。预计这些研究工作将为人类引导的机器适应、训练精通技术的士兵、混合人机思维、以及下一代人类系统集成和系统级分析创造新的能力。由于战争正在快速变化，包括不断的技术变化，实现这样的能力需要制定一个研究计划，以推进人工智能、人类与人工智能的合作，专门用于复杂的决策。

作为DEVCOM陆军研究实验室未来风险投资（DFV）计划的一部分，这个项目的目标是开发一个跨学科的计划，以解决人工智能决策的复杂性和人类-人工智能团队决策中的差距。这包括开发一个人工智能研究测试平台--ARL战斗空间，将复杂的兵棋推演决策抽象为关键要素，以便人工智能和人类-人工智能团队的发展可以专门关注复杂的决策过程本身，同时避免物理现实主义和当今材料和理论的计算和概念限制。这也包括为如何发展人类-人工智能协作决策创造新的概念，了解如何塑造信息流以实现人类-人工智能决策的相互透明，以及在人类和人工智能都难以筛选出不确定性和欺骗的条件下实现相互适应性学习。显性和隐性的决策框架都需要通过这个抽象的兵棋推演测试平台来实现，以便人工智能可以在多个推理层次上学习和接受挑战。还需要一个适当的抽象水平，以使多种类型的研究，包括神经科学、人工智能和决策理论交叉的学术研究，以提高人工智能决策的能力和复杂性，并改善其在军事方面的转化。

1.2 长期目标

根据设想，在2035年及以后的陆军中，指挥与控制（C2）决策将由决策辅助系统来激活，该系统利用分布在多个梯队的人工智能能力，并以复杂和快速的方式摄取所有领域的数据，这将使没有辅助的士兵感到不知所措。启用人工智能的决策辅助工具将能够对战斗空间进行前沿模拟和分布式训练；在MDO的渗透和解除整合阶段，能够对条件、友军和敌军战略以及能力变化的可能影响进行调整和前瞻预测；并能够对关键决策进行事后审查。人工智能将为其决策提供透明度，使真实和抽象的决策空间互动可视化，并根据陆军理论和未来理论的要求，对士兵的个体化和情境进行优化。相反，人工智能将与士兵共同适应，学习如何在信息不足、冲突或欺骗的情况下做出复杂的决定，并为有效的团队决策重新塑造、完善和展示信息。有了人工智能Agent作为数据有效转化和行动化以及利用显性和隐性知识的合作伙伴，预计分布式C2指挥官将能够在MDO的许多时空尺度和维度上共同制定和协调行动方案，并且战术和战略的跨领域互动将被向前模拟，对环境、人和战略的动态有更强的弹性。除了增加复杂决策的能力外，预计决策过程本身将通过消除繁琐的计算和其他延迟而加速，从而使计划和战略能够比实时更快适应不断变化的战场和外部（如外交、经济）因素。

为了实现这一未来，为复杂决策开发新型人工智能的计划的长期目标是利用多个学科的持续进步。用于推理的"核心人工智能"的发展，在为简单决策迅速取得进展的同时，需要持续的协同创新，以及来自神经科学和心理学等领域的研究，以便在奖励难以分配给具体事件或行动的条件下（例如，因为不清楚以何种程度的确定性将奖励的原因归于谁、什么、何时、何地或为何），为强化学习开发新型理论。需要机械层面的理论（例如，神经胶质网络如何支持将不同的事件与奖励联系起来）和更高层次的理论（例如，社会规则如何塑造学习）来弥补目前核心人工智能的有限能力和C2决策的需求之间的差距。还需要协同创新和研究，将人工智能的发展与士兵的隐性推理过程相结合，以实现元学习和元推理的决策互动。

1.3 DFV项目的目标

ARL DFV项目是一种机制，旨在促进跨学科基础和应用研究的新方向，解决研究差距，并为军队的任务创造新的能力。DEVCOM ARL研究员认为分析科学是一个需要能力的领域，具有高回报的潜力，需要对现有项目进行重新规划和扩展，并需要新的项目来建立新的核心能力和建立内部的专业知识。

为了创造这些能力，这个DFV项目的主要目标是建立一个新的研究项目，为C2决策辅助工具的复杂推理开发新型人工智能。这包括开发一个人工智能测试平台：ARL Battlespace，以便灵活地开发专门用于MDO C2决策的复杂推理的新型人工智能。现有的兵棋推演人工智能测试平台往往局限于较简单的决策，更注重于战术性的地面行动。例如，正在进行的人工智能测试平台开发工作，如ARL Simple Yeho人工智能测试平台，侧重于环境的真实性，有多个地图层，包括道路、树叶和海拔高度，向排长推荐决策，如路线规划和士兵重新分配任务。由于对当地地形环境的关注，在该环境中开发的人工智能推理将集中在精细的社会和生态动态上，对协作和敌对决策动态进行深入训练的机会比较稀少。这些稀少和复杂的问题（"微小的、肮脏的、动态的和欺骗性的数据"）迷惑了发展人工智能的经典方法，尤其是复杂推理。相反，这个DFV项目的ARL战斗空间人工智能测试平台抽象了当地地形的元素，将人工智能的学习和推理更具体地集中在复杂的MDO相关的C2深度推理上（多个决策步骤，包括更频繁的合作和欺骗的机会）。这使得在C2兵棋推演的背景下，更有针对性地发展人工智能对复杂的多Agent（人、人工智能和人+人工智能团队）的决策能力。

第二个目标是通过开发一个有效的WMI来研究和开发如何呈现人工智能的理解和预测以及如何利用人类的理解和预测，为复杂决策的有效人类-人工智能团队合作创造条件。这项工作包括利用和开发高性能计算（HPC）资源进行计算支持，同时开发用于决策的商业二维交互和混合现实交互的定制软件（例如，基于增强现实沙盘[ARES]平台的战斗空间可视化和互动（BVI）平台）。通过开发多种WMI方法，我们期望这些平台能够实现复杂决策的快速原型研究，并能够将我们的新型AI与更成熟的兵棋推演训练和模拟框架与团队进行整合。

我们预计，在新型人工智能开发、HPC计算支持和用于决策空间现实表现的WMI开发方面的这些努力将为人类-人工智能团队的发展创造一个新的范例，为未来多个陆军理论（MDMP、DOTMLPF、27 METT-TC28）的进步和现代化铺平道路（图2）。

图2 在更广泛的人类-Agent团队决策研究战略中的新型人工智能开发

这个项目开发了两个研究框架。首先，它开发了一个人工智能测试平台，被称为ARL战斗空间，用于创建和调查人工智能的复杂协作和敌对决策。其次，它认识到目前军事决策过程中的局限性，构思了一个用于人与人工智能协作的复杂决策的WMI，利用军队和商业开发的战斗空间可视化平台，与非传统的HPC资源进行潜在的连接，实现人工智能增强的兵棋推演平台。

2. ARL战斗空间人工智能测试平台

这里，我们描述了我们开发ARL Battlespace的方法，这是一个开源的灵活的兵棋推演平台，将促进开发基于强化学习算法的新决策辅助工具。特别是，我们关注的是有三个或更多合作和敌对玩家的博弈论的理论和算法能力的差距。虽然博弈论的概念，如囚徒困境和Brinksmanship（"吃鸡"），对于两个玩家已经发展得很好，但它们还没有扩展到三个或更多的玩家，由于鞍点和局部最小值的存在，决策环境可能很复杂，这可能混淆了强化学习的作用。在战争中可能出现的情况下，理解和预测三个或更多的合作和敌对玩家的纳什均衡，需要一个灵活的兵棋推演平台，允许跨学科地探索这种决策空间。该兵棋推演平台还需要能够开发、理解和发现玩家和人工智能之间的新型互动和协同作用，使人类能够利用人工智能快速找到最佳和接近最佳的解决方案。这些解决方案将使人工智能能够从人类的决策模式中学习，以及如何优化其对决策空间的搜索。

2.1 框架

为了实现这些解决方案，我们开发了一个类似于国际象棋的棋盘游戏，由两支队伍组成，一支红色部队和一支蓝色部队，每支队伍可以有多个联盟（玩家）。游戏是在一个共同的战斗空间上进行的，这个战斗空间目前被设计为MDO每个领域的一套棋盘。图3显示了一组游戏棋盘的例子，我们考虑了一个"空中"和一个"陆地"棋盘。每个棋盘都被划分为一组单元格，"空中"棋盘被放在"陆地"棋盘上，形成一个共同的战斗空间。在这个例子中，我们选择了创建方形网格，并且只考虑两个领域。然而，在一般情况下，棋盘格可以采取任何形状，并且可以任意缩小，而棋盘的数量可以灵活处理MDO中的每一个域。例如，"空中"盘可以由多个代表不同海拔高度的板组成。这种提法提供了一个通用的应用编程接口（API），允许在兵棋推演中取得基本的研究进展，因为它可以被定制以适应任何兵棋推演的场景。

图3 用于复杂决策的ARL战斗空间AI测试平台

每个联盟都被假定有一组部件，我们称之为单位。目前，我们假设有四个地面单位和一个空中单位。地面单位由士兵、坦克、卡车和旗帜组成，而空中单位是飞机。每个地面单位目前都有相同的能力（即，相同的行动和视图集）。然而，API的设计是为了使联盟的每个单位都有定制的能力，从而使设计特定场景变得容易。

目前各单位的规则和行动如下。士兵、坦克和卡车都有一个目标，描述他们的导向。他们的行动包括 "什么都不做（doNothing）"、"转向（turnH）"、"前进1（advance1）"、"射击（shoot）"和"冲撞（ram）"。"doNothing"意味着该单位停留在他们的位置，不改变他们的状态。"turnH"将单位的方向旋转H度，其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移动一个单元。"shoot"向单位的方向射出一个弹丸，弹丸继续向前推进一个单元，直到它与另一个单位相撞或在游戏盘外飞行。最后，"ram"行动使单位在其方向上向前推进一格，同时进行攻击。与 "advance1"行动相比，"ram"行动总是有利的，因为攻击可以消灭敌方单位。

飞机单位的规则和行动与士兵、坦克和卡车相似。这些行动是"什么都不做（doNothing）"、"转向（turnH）"、"前进X、Y（advanceX,Y）"、"射击（shoot）"和 "轰炸（ram）"。“doNothing”、“turnH”和“shoot”的动作与地面单位相同。行动“advanceX,Y”允许该单位沿东西轴线移动X单元，沿南北轴线移动Y单元。飞机也可以 "上升（ascend）"和 "下降（descend）"来起飞和降落。最后，"炸弹（bomb）"行动在飞机的正下方射出一个弹丸到陆地游戏盘上。旗帜单位无法移动，如果被俘，则被清除。

目前游戏玩法的实施很简单。最初，每个联盟（玩家）将其单位放在游戏盘的各自区域。当每队有多个联盟时，各队的游戏板部分被平均分配给各联盟。请注意，每个单位的位置对所有其他联盟都是未知的。然后，每个单位观察其可见范围内是否有其他单位，提供一个战争迷雾的场景。我们将每个单位的观察范围定义为从该单位的当前位置开始的一个方块；然而，可视范围可以根据场景和单位的情况进行定制。一旦每个单位观察到了，同一团队的联盟就会合作确定他们想为每个单位采取的行动集。这允许每个联盟观察其队友的单位位置，并进行沟通以协调他们的计划。接下来，每个联盟为每个单位选择一个行动。请注意，所选择的行动只有属于同一团队的联盟才知道。在选择了行动后，游戏决议被应用，根据他们选择的行动移动单位，并解决是否有任何单位被攻击或与另一个单位相撞。如果一个单位被攻击或与另一个单位相撞，它将被从棋盘上移走。这个过程不断重复，直到游戏结束。

完成游戏取决于游戏的基本规则，这些规则可以根据具体场景进行定制。在这里，我们研究了两种类型的游戏：（1）夺旗和（2）歼灭。夺旗游戏的目标是操纵地面部队进入敌方领土以夺取对方的旗帜，旗帜的位置是未知的，必须通过探索才能发现。一旦所有的敌方旗帜被占领，游戏就会终止。歼灭战的目标是发现并攻击所有敌人的地面单位。在这里，一旦发现并消灭了所有敌人的地面单位，游戏就终止了。每种游戏的基本规则都是相同的，但实现每个目标的最佳策略是不同的。在这两种类型的游戏中，由于敌方单位和旗帜的能见度有限，存在着高度的不确定性。

2.2 分层贝叶斯模型的试点实验

接下来，我们报告了我们在开发基于模仿学习思想的人工智能Agent方面的初步结果，模仿学习使用的是由人类演示构建的分层贝叶斯模型。我们从讨论数据收集过程开始，对数据进行分析，最后用启发式方法使一个简单的人工智能Agent胜过一个随机Agent。

2.2.1 实验设计

为了学习人类的策略，我们让五个人类受试者组合在一起，针对第2.1节中讨论的两类游戏（即夺旗和歼灭），与两个随机Agent进行ARL战斗空间游戏。在每个回合中，每个随机Agent根据一个固定的分类分布为每个单位𝑖选择一个行动，其中采取一个行动的概率是，取决于单位𝑖可以采取的行动数。回顾一下，每个单位的行动在第2.1节中有描述。

每个游戏由一对人类受试者对两个随机Agent组成，在每个游戏开始时，人类受试者合作讨论他们对该游戏类型的整体策略。这导致了20场游戏的收集，其中夺旗和歼灭战各10场。一旦所有的游戏都进行了，就对游戏数据进行分析以确定人类的策略。

2.2.2 游戏数据结果和分析

分析游戏数据的第一个方法是研究人类玩家的行动频率。行动频率被定义为，其中D代表夺旗或歼灭的游戏数据。是指在所有游戏中，单位𝑖采取的行动次数，而𝑇(𝐷)是所有游戏中的总回合数。

图4显示了地面单位（即士兵、坦克和卡车）的行动频率，图5显示了空中单位（即飞机）的行动概率。游戏的总体目标决定了所选择的行动，使我们能够确定所玩游戏的类型。如图4所示，夺旗游戏的地面单位更有可能选择前进和攻击的方式，用 "冲撞"的动作来寻找旗子。此外，"什么也不做"的行动也被更频繁地选择。这是因为一旦团队找到旗子，离旗子最近的单位就会采取行动去抢夺旗子，而其余单位则什么都不做。对于空中单位，人类受试者更倾向于选择 "advance0,-2 "的行动，即把单位推进到敌人的领土上寻找国旗。

图4 从人类游戏中产生的所有地面单位，以游戏类型为条件的行动概率

图5 从人类游戏中产生的空中单位，以游戏类型为条件的行动概率

在 "歼灭"游戏中，人类Agent更倾向于选择攻击行动来消灭敌人的目标（即对地面单位采取 "射击"，对空中单位采取 "射击"和 "轰炸"）。为了进一步验证这一策略，图6显示了每回合平均射弹数量的累积总和。显然，"歼灭"游戏的射弹数量比"夺旗"游戏要多。

图6 每一回合中射弹总数的平均累积总和

两种游戏的另一个区别是，夺旗游戏的总回合数要比歼灭游戏少得多。这是因为人类Agent找到旗子的速度比他们找到敌方单位并消灭它们的速度要快。

基于对人类Agent如何与随机Agent玩游戏的简单理解，我们可以按照类似的方法来学习策略，为简单的人工智能Agent开发启发式方法。

2.2.3 从人类演示中学习的简单人工智能Agent的性能

一个简单的人工智能Agent的算法如下。最初，Agent随机地将他们的单位放置在棋盘的指定区域。然后，每个Agent确定每个单位的状态。考虑到状态和游戏的目标，Agent从预定的概率分布中为每个单位抽取一个行动。

这个过程在每个回合中都会重复，直到游戏结束。预定的概率分布遵循一个分层贝叶斯模型。为了便于表述，我们在附录中提供了相关理论。对于最简单的情况，我们认为单位在每个回合中可能处于两种状态，或。然后，概率分布根据附录中的公式A-1定义，与图4和图5中的行动频率类似。然后我们将这个分布实现在两个简单的人工智能Agent中，并与两个随机Agent进行比赛。作为一个基线性能，我们与两个随机Agent进行了比较。在这两种情况下，都进行了1000场比赛，并计算了获胜百分比。通过使用双状态概率分布，简单的人工智能Agent能够在夺旗游戏中赢得84.5%的时间，在歼灭游戏中赢得76.9%的时间。

接下来，我们为每个单位i考虑了一个更大的九态状态空间，定义为，其中𝐹r0和𝐹r1分别表示一个友好单位是否被i单位观察。𝐸0和𝐸1分别表示i单位是否观察到敌方单位；以及𝐹l0和𝐹l1分别为团队是否看到敌方旗帜。同样，概率分布然后根据附录中的公式A-1定义，并落实到两个简单的人工智能Agent。在夺旗游戏中，简单人工智能Agent对两个随机Agent的获胜比例为89.4%，在歼灭游戏中为82.3%。

结果摘要见图7。有趣的是，在两种形式的概率分布（即双状态分布和九状态分布）中，夺旗策略都优于歼灭策略。这是因为 "消灭 "游戏中的Agent更有可能选择 "射击 "行动，由于随机的初始位置，这将导致更多的友好射击。因此，作为一个简单的人工智能Agent，采取先攻后守的方法更有利。此外，当我们考虑到单位的额外状态时，获胜的百分比会增加。未来工作的一个可能方向是开发深度强化学习策略，以学习最大化获胜比例所需的状态定义和数量，即使是面对人类Agent，也要为MDO中的C2提供建议。

图7 简单AI Agent的获胜比例

3. 复杂决策的实例场景

ARL战斗空间测试平台的关键优势在于其灵活性和适应MDO任务规划的变化需求。它的抽象性使关键的决策过程及其互动和动态被压缩到一个较小的游戏盘中，并有更多可量化的人与人工智能的互动，用于开发人与人工智能的团队合作。这使得人工智能的开发能够集中于复杂决策的奖励塑造，同时减少由于滋扰因素（如时空缩放）造成的学习障碍，这些因素使决策在时间和空间上变得稀疏，因此，更多的努力（人工智能以及人工智能开发者的部分）可以被用于在各种时空尺度的不确定性和欺骗下的学习。它还将兵棋推演互动中可能不容易被整合到人与人工智能团队中的特质（例如，人类心理学的某些方面，如个人关系）放在一边，以利于在人工智能推理发展方面取得更切实的进展。在下面一节中，我们介绍了几个挑战和发展人工智能进行复杂推理的例子。这些例子包括博弈论、元推理和网络欺骗，涉及到现有人工智能算法尚未处理或解决的各种复杂决策。由于人工智能的C2决策辅助工具将有望超过人类水平的决策，不仅在速度上，而且在复杂性上，我们设想这样的C2决策辅助工具需要能够解决大多数（如果不是所有）的情景。

3.1 突破情景和重新想象博弈论

我们首先关注博弈论和兵棋推演之间的差距，在一个简单的突破场景中，这是兵棋推演中经常遇到的一个经典问题（例如，在桥梁交叉口、地雷区和山口[图8]）。在经典的博弈论概念Brinksmanship（"吃鸡"）中，友好的蓝色和绿色坦克被激励着越过缺口到达另一边。通常情况下，这些坦克会协调他们的行动，但如果蓝、绿坦克之间的通信被破坏，一个单位（如蓝坦克）的行动可能会因为与另一个单位（绿坦克）的碰撞或友好射击而导致低回报。如果还包括囚徒困境的元素，那么这个场景就迅速超越了经典的博弈论，因为可能需要绿色和蓝色坦克一起穿越，共同攻击更强大的红色坦克，这需要仔细协调。额外单位的存在（例如，绿色飞机对敌对单位提供观察、轰炸或干扰，如黄色士兵提供可能的增援）能够进一步操纵动态和环境对决策的限制或机会。飞机也可能发现第二个缺口，或者 "墙"可以渗透，以创造缺口（例如，清除地雷或建立额外的桥梁交叉点）。

在粗略尺度（如10×10板）和背景下学到的行为可以通过奖励塑造逐步推广到更细的尺度和其他背景下。额外的地图层也可以被添加到诸如快速地下运输等领域，以绕过地面层中的墙壁。环境因素，如天气，也可以包括在内，以改变机动性。因此，即使是一个看似简单的场景，也可以提供丰富的机会来操纵影响决策动态和结果的因素，并探索不同类型的不确定性之间的相互作用如何改变决策景观，以创建鞍点和局部最小值，从而混淆强化学习的作用。在战争中可能出现的情况下，理解和预测三个或更多的合作和敌对玩家的纳什均衡，需要一个灵活的兵棋推演平台，允许跨学科地探索这种决策空间。兵棋推演平台还需要能够开发、理解和发现玩家和人工智能之间的新型互动和协同作用，使人类能够利用人工智能快速找到最佳和接近最佳的解决方案。这些解决方案将使人工智能能够从人类的决策模式中学习，以及如何优化其对决策空间的搜索。

图8 带有丰富博弈论条件的场景

3.2 元推理场景、任务背景和战略

在ARL战斗空间游戏中，每个玩家都有一面彩色的旗帜，游戏可以通过歼灭所有对方的地面单位或夺取对方的所有旗帜来获得胜利（现实生活中的一个等价物是夺取所有关键的桥梁或指挥中心）。根据游戏的状态，指挥官可以决定改变整体策略（歼灭战与夺旗战），以更快地取得胜利。例如，如果一辆坦克已经接近一面旗帜，那么将剩余的单位转到其他地方寻找剩余的旗帜可能是有利的（图9）。相反，如果一支敌对部队守卫着第一面旗帜，那么优先夺取这面旗帜可能会更好，这样搜索第二面旗帜的效率会更高。这种未阐明的推理，或称 "默契推理"，往往在自然的人类决策中根深蒂固，这是一种需要开发的人工智能能力，以便人工智能能够有效地参与人类-人工智能团队的决策，使人工智能的发展能够开始有工具来获得人类决策的创造性。

图9 带有隐性推理和任务重新分配的元推理标志方案

对于人工智能的发展，这就需要一个额外的更高级别的推理Agent不断地监测游戏的状态，以做出切换策略的选择，并将此传达给控制各个单位的Agent。元推理包括监测推理所涉及的步骤，以及平衡影响活动结果的标准。此外，元推理结合了不同信息的不确定性，以产生更有意义的、符合背景的决策建议。纳入元推理可以使约束条件和各种决策方法得到权衡，为行动方案提供不同的选择。例如，基于元推理的替代选择可以决定是否优先考虑探索与攻击已知敌方单位与防御，部署哪种机动战略，或者考虑到敌方部队的可观察位置如何重新分配任务。由于ARL战斗空间环境的网格大小较小，游戏可以快速进行，导致经常有机会使用元推理，并使人工智能有机会学习结合和预测多种类型的元推理方法的相互作用。由于抽象环境增加了人工智能学习战略如何交互的频率，这将使人工智能学习更高级的战略，例如需要平衡不同战略、能力和任务要求之间的交互，保持选择的自由，并产生战略模糊性以迷惑对手。总的来说，这种方法的好处是通过增加控制和监测机制来改善决策，这些机制包括一个平衡行动和环境约束的元推理Agent。

3.3 简单的欺骗和人工智能的心智理论

对抗性决策的一个关键方面，特别是在战争中，就是欺骗。欺骗可以发生在多个层面，包括战略、可观察的信息、单位能力和位置。在ARL战斗空间中，单位的可观察性有限，这自然为欺骗创造了机会，而飞机在敌方空间深处的探索能力也为揭开单位位置的欺骗提供了机会。图10展示了一个简单的欺骗场景的例子，在这个场景中，友军的蓝色和绿色部队试图穿越到另一边。左下方的友军士兵开始通过左边的缺口发射导弹，因为他们的Agent推断（通过对方Agent的人工智能心智理论），看到导弹后，敌方Agent会推断出友军正准备通过该缺口进行攻击。这种欺骗，通过将敌方Agent的注意力和计划集中到左边的缺口，使他们偏离右边的缺口，为蓝绿坦克从右边进入创造机会。通过设计有两个缺口的情景，该情景建立在经典心理学的两个替代性强迫选择任务的基础上，能够应用敏感的心理学工具进行决策分析，并开发动物模型，从神经生理学和行为学上剖析支配欺骗的情境依赖性学习和决策的基本细胞和分子机制。例如，人们可以引入一些因素，使友好或敌对的决策出现偏差（例如，通过操纵传感器的噪音或操纵总部的命令），或应用光遗传学和化学遗传学工具等方法，了解他人的认知、信念或策略的神经表征（例如，在前扣带回和眶额皮层中）对决策计算的贡献（在前额皮层中）。这种调查还可以发现决定一意孤行、启发式方法和隐性偏见与对其他假设的开放性的因素，这可以帮助确定在特定条件下如何最好地重新分配任务（例如，当一个人对等级指挥结构有偏见时，他可能不太愿意追求与总部的命令相矛盾的传感器信息）。这种固有的偏见、启发式方法和默契的推理是人类推理的自然组成部分，在我们与他人的互动中会被预期到；人工智能的心智理论包括这种偏见补偿，对优化人类+人工智能的团队合作可能是有益的。

图 10 需要人工智能心智理论的简单欺骗场景

3.4 网络欺骗、多领域整合和可信度

在人类的决策中，来自不同领域的信息可以结合起来，产生意想不到的效果。心理上的McGurk效应是指口型"ga"和听觉上的音节"ba"在时间上有很强的同步性，从而产生幻觉"da"。虽然多感官整合似乎没有在C2决策中得到探索，但MDO中多个领域的汇合，特别是其在穿透和分解整合阶段的高容量和高速度，可能会产生意想不到的非线性跨领域的相互作用（这可能有助于"战争迷雾"）。图11说明了一个例子，在这个例子中，实际迹象（导弹）和坦克诱饵（由中间人[MITM]网络攻击产生）的组合可以协同作用，迫使敌方单位向左侧缺口移动。为网络欺骗创造趋同的迹象线是一种普遍的策略，然而特定的欺骗模式可能比其他模式更有效。例如，人们认为大脑会将相似或相关的迹象分组，以进行有效的处理（如格式塔分组），这样就可以克服信息瓶颈（如处理七个以上的名义项目，从而减少单个项目的影响）。如果进行每一次网络攻击都会产生一定的成本或风险，那么了解如何将这些成本分配到不同的线索特征中，以便以最小的风险提供最有效的影响可能是有益的（例如，如果MITM攻击产生导弹诱饵，那么它的效果可能会降低，甚至是反作用）。了解不同的线索组合如何被不同的士兵所感知，也可能是有意义的。具有不同偏见或处于不同角色或梯队的指挥官可能对相同的迹象组合有不同的感知、解释或行动（例如，一个诱饵的有效性可能取决于它与目标指挥官的距离以及与他的决策过程的相关性）。更高级的策略可能包括主动防御（例如，通过 "蜜罐 "策略[图12]），以提高网络欺骗的有效性。为了给MDO提供超人的能力，人工智能决策辅助工具可能需要根据即时可用的迹象在多个领域协助生成可信的诱饵，以网络的速度迅速调整这些展示，并保持虚拟和现实世界之间的一致性，以保持幻觉的有效性。

图11 带有中间人攻击的网络场景

图12 带有蜜罐的网络场景

4. 人与人工智能编队协作的复杂决策

上一节所述的ARL战斗空间人工智能测试平台通过将战斗空间地形抽象为一个没有现实表现的网格状环境，提供了人工智能开发和测试所需的灵活性。例如，图8显示了一个类似于墙的障碍物，它被表示为几个网格块，与单位互动时应用的环境约束条件有关。人类团队和AI都在共同的双级网格化战斗空间内进行游戏。人类玩家通过在控制台窗口中输入基于文本的编码命令与ARL战斗空间互动。这种命令行的交互和显示加速了人工智能算法的开发过程，并为人工智能兵棋推演所需的大规模实时计算建立了与计算资源的潜在联系。为人工智能兵棋推演测试平台（如ARL Battlespace）构思一个用户界面，并建立通往外部计算服务的管道，构成了DFV第二个目标的基本组成部分--开发一个用于复杂决策的WMI。

一个跨梯队和作战级别的军事决策过程模型构成了为人类和人工智能兵棋推演开发一个有效的WMI的基础。在传统的兵棋推演中，指挥官利用一个共同的基于地图的作战地形，并模拟MDMP中各种因素的组合如何产生行动方案（COAs）、可能的反击行动、资源使用估计和预测结果。在几天或几周内，MDMP过程形成一套精炼的COAs，对作战环境做出某些假设，包括地形、天气和设置战场的单位的可用性和能力（即为支持主要作战行动而塑造活动）。

尽管MDMP帮助指挥人员了解作战环境和考虑作战方法，但这个过程有许多局限性，如时间密集性、假设的僵硬性、跨场景变化的训练机会有限，以及很少有机会将人工智能指导纳入决策过程。传统上，一项任务的成功与指挥部执行MDMP的能力直接相关。然而，鉴于MDO的复杂性增加，有大量的任务指挥系统和流程，与行动相关的所有活动的整合和同步变得越来越困难，甚至到了人力无法完成的地步。缺少MDMP所导致的规划专业知识的缺乏会导致行动的不同步和不协调，并最终导致士兵的生命损失。

MDMP中没有具体描述战斗空间的可视化能力，但它显然在决策过程中发挥着重要作用。最近，整合了先进可视化能力的新系统和技术已经被开发出来，这些系统和技术可以提高对局势的认识，从而加强决策过程。陆军的例子包括Nett Warrior，它使下马的战士能够直观地看到附近的友军和敌军，同时根据当地的地形协作规划战术任务。尽管这项技术将无线电和数字地图扩展到了下马战士，但它缺乏一个提供决策帮助的基础人工智能引擎。BVI是陆军技术的另一个例子，它能够为任务规划提供分布式协作，具有从任意视角和广泛选择的设备对共同作战图进行2D和3D可视化的能力。BVI架构可以被制定，以拉入外部计算服务，如分析管道、模型和AI引擎。

目前，MDMP并没有将人工智能指导纳入整体任务规划方法中。陆军的APF开始通过将自主技术插入MDMP工作流程来解决人工智能辅助决策的问题。指挥人员可以通过APF的数字规划显示、规划创建者和规划监控工具，在任务规划和COA开发过程中获得背景援助。任务执行和估计能力通过监测任务的规划和实际进展，为改进决策跟踪和支持活动提供自动协助。尽管APF在MDMP中引入了基本的自动化水平，但它缺乏Nett Warrior和BVI所提供的高级可视化和用户交互能力。

除了MDMP之外，最近将人工智能纳入决策过程的努力包括了一些方法，在模拟人类决策过程方面取得了一些成功。一般来说，对于决策变量有限的问题，如资源分配、飞行模拟器和较简单的场景，人工智能取得了一些成功。目前面临的挑战包括：需要提高人工智能的能力，以解决有多个行动者、不完整和可能相互冲突或欺骗的信息、不断变化的单位行动和环境属性的复杂决策，以及需要将这些决策的后果在许多空间和时间尺度上可视化。

4.1 未来MDMP需要的进步

MDMP在支持MDO复杂决策方面的局限性，突出表明需要在三个方面进行改进。首先，有必要将人工智能生成的指导和辅助决策支持纳入MDMP。这包括进一步发展和整合人工智能到战斗空间决策规划，以及进一步改善人工智能决策过程的可解释性和透明度。第二，有必要在可能的情况下，将决策分析与战略层面以及战术边缘的HPC的力量结合起来。这将能够利用HPC系统的力量来改善建模、分析和计算时间，同时整合和同步来自所有战区领域的信息。最后，有必要利用先进的可视化技术，如混合现实技术，对决策空间进行更准确和互动的展现。不是简单地在一个固定的时间尺度上显示地形的二维渲染，而是需要可视化不同领域的决策是如何互动的，并利用混合现实技术来提高理解的吞吐量和深度，并实现平面显示不可能的洞察力。

MDMP是陆军设计方法的核心，用于应用批判性和创造性思维来理解、可视化和描述问题以及解决这些问题的方法。作为解决问题的行之有效的分析过程，必须克服前面描述的MDMP的局限性，以便快速制定一个灵活的、战术上合理的、完全整合的、同步的规划，以最小的伤亡增加任务成功的可能性。下面的小节描述了对MDMP的潜在改进，以支持人类与人工智能的合作决策。

4.1.1 人工智能引导的决策指导

需要新的人工智能支持的WMI，以利用人工智能决策的持续进步，并为复杂的适应性决策的人工智能学习做出贡献。通过汇集所有领域的信息，计算人类和人工智能Agent的风险和预期回报，人工智能决策辅助工具的发展将提供能力越来越强的COA建议。现有的人工智能有几个局限性，特别是对于有不确定性的复杂和适应性决策，以及人类和人工智能Agent的协作和对抗。对多Agent的协作和对抗性决策进行建模可能特别复杂，因为它的递归性质，其他Agent是模型的一部分，需要对决策特征、个性化的价值、风险规避、记忆和注意力进行动态和不断发展的估计。这些具有高度不确定性、复杂性和动态性的情况是人类擅长的领域，适当设计的人机协作交互可以提供加速和更有效的决策。为了实现有效的团队合作，新颖的WMI应该帮助作战人员筛选复杂的信息，帮助人工智能发现决策的隐含规则。在此，我们提供了关于人机协作如何有效的案例。

多域兵棋推演中需要的复杂决策是开发有效的人工智能决策辅助工具的直接挑战。最近人工智能在围棋和国际象棋等游戏中的成功是基于对世界现有状态的完全了解（即 "开放"游戏），而兵棋推演通常包括关于作战环境的不完整（如星际争霸）、不确定和/或欺骗性的信息。由于世界状态、不同行动者的状态以及所采取的行动影响的不确定性，知识的缺乏使得人工智能Agent难以计算未来行动的风险回报情况。不确定性也限制了人工智能估计其他行为者的风险回报概况的能力，而这是计算有效博弈论策略所需要的。人工智能被可能的最优和近似最优选择的广度所淹没（即由于信息有限而选择错误）的情况并不少见，因为人类在制定有效探索隐藏信息的策略时，会采用启发式方法来进行有效的选择和预测。为了帮助发展人工智能的隐性知识和探索能力，新型的WMI需要有效地解释和展示决策图，以使作战人员能够快速和自然地浏览可能的选择，同时使人工智能能够适时地从人类的决策中学习，而不施加认知负荷。

开发人工智能的WMI的另一个基本挑战是如何有效地整合和显示MDO中所有五个领域的信息，特别是空间和网络，因为这些领域的信息具有不同的时空尺度。对于网络，决策的规模和速度可能比人类处理和理解的能力更快，需要人类的输入来指导半自动的决策，以及一个实施进攻和防御欺骗策略的人工智能。WMI需要能够以这样的方式显示决策图，即一小部分最优和接近最优的决策策略清单是可以解释的（例如，通过决策树）。这应该包括对关键Agent在不确定情况下的未来状态和风险回报情况的估计，以使有效的博弈论决策能够被共同开发和相互理解。

这些挑战为有效的WMIs的可能设计提供了参考。也就是说，我们需要有能力从不同的来源（包括从其他国家的决策辅助工具）摄取信息，以及一个能够承载整合这些信息的计算能力架构，同时还要处理基础的人工智能计算（包括学习和部署）。我们还需要共同开发一个交互和算法设计，以适时地利用人类和人工智能Agent的优势并减少其局限性。

4.1.2 高计算能力下的决策过程

在MDO兵棋推演的复杂决策过程中，需要大量的计算能力来处理和记录所有组件、实体和状态空间。从动态状态空间的累积数据集中建立过去、现在和预测模型，需要利用HPC资源来产生分析见解，并创建在复杂决策背景下有用的表示。

实施HPC分析工作流程的一种方法是使用持久性服务框架（PSF）。PSF是一个最近可用的分布式虚拟化解决方案，它可以通过一个基于网络的前端实现对高性能计算服务的非传统访问，而不像传统的HPC环境那样，计算节点在特定时期内以批处理模式分配给用户。此外，PSF可以提供对数据、数据库、容器化工具集和其他托管平台的分布式持续访问。

在一个PSF方法的例子中，一个模拟引擎连接到PSF，用于记录人类和人工智能做出的所有决策。这允许分析在任务规划和COA开发过程中发生的决策行为，以及识别决策模式和战略，以开发竞争和现实的兵棋推演场景。一个战斗空间可视化平台可以托管在PSF上，并使用信息传递协议来更新所有连接的设备接口。来自模拟引擎的状态信息可用于生成战斗空间和参与作战单位的图形表示。

使用PSF方法并利用HPC资源，可以实现利用大数据摄取和分析的人工智能辅助决策机制，同时可供地理分布的用户用于协作决策工作。连接到PSF托管服务器的各种混合现实显示模式可以支持从战略层面的C2到作战边缘的更多移动战术使用等一系列作战场景。

4.1.3 决策空间的逼真呈现

用图形表示各级行动的军事决策战略需要新的可视化方法，这些方法可以应用于以规则变化、认知状态、不确定性以及个人偏见和启发式方法为特征的动态环境。

战斗空间的视觉表现应该在技术上尽可能准确和逼真，但又保持在人类可以理解和解释的认知水平。融合了混合现实技术的先进可视化方法有可能更好地表现多领域战争的变化特征及其不断变化的威胁和动态环境。随着最近混合现实可视化设备的技术进步，成本降低，硬件的可靠性和实用性显著提高，混合二维和三维可视化方法现在已经成为可能。

由多个二维显示器组成的混合现实方法增强了更先进的三维可视化能力，可以为指挥人员提供了解复杂的战争游戏状态空间所需的洞察力。例如，BVI平台可以使用多种可视化模式的组合，真实地呈现地理空间的地形。作为一个数据服务器，BVI向支持多种可视化模式的客户端应用程序分发地形、作战和Agent行为数据，包括头戴式显示器设备、基于网络的界面、移动安卓平板设备和混合现实设备（例如，HoloLens 2、Oculus Quest）。

图13（顶部）显示了位于加利福尼亚州圣贝纳迪诺县欧文堡国家训练中心的高分辨率地形上的友军与敌军的兵棋推演场景。与MDMP期间经常使用的传统2D地图显示相比，战斗空间的3D视图可以从多个观察角度提供更丰富的用户体验。三维视图，在BVI的网络战术计划器（WTP）中，将地形和人工特征的空间信息以及由MIL-STD 2525C符号描绘的单位位置可视化。

可以想象，地理空间视角，如BVI提供的视角，支持决策者对动态战斗空间环境的理解。与可导航的人工智能增强的决策空间（图13，底部）搭配，组合的视角可以使人们更好地理解视觉空间依赖性、影响和因果关系、估计的风险和价值、不确定性以及复杂决策的欺骗性。将这种以地理空间和决策为中心的视角与人工智能相结合，可以提供必要的广度，以协调物理行动与网络和其他非空间领域的行动，跨越多个时间尺度，并具有快速适应变化的任务目标的灵活性

图13 BVI网络战术规划器中的兵棋推演场景的三维视图（上）与人工智能决策树的概念（下）。

5. 讨论

人工智能对人类自然决策行为的机会性学习，以及学习环境的适当结构和顺序，使人工智能被训练过程有效地塑造，是已经建立起来的提高人工智能快速学习困难挑战能力的框架。要进一步提高人工智能在兵棋推演中的复杂决策能力，需要提高人工智能在具有高度不确定性的MDO背景下处理决策的能力、欺骗性和博弈论，这些都是人工智能发展过程中奖励分配的挑战。克服这些挑战需要利用多学科的进展，从了解大脑的决策、奖励和计算的神经生物学进展到专业知识、隐性知识、心智理论、博弈论和元推理在复杂决策过程中如何应用的心理学进展。

人工智能如何能够最好地学习人类的复杂决策仍然是一个开放的问题。尽管对复杂决策进行奖励塑造的确切机制还没有被发现，但这个项目已经产生了如何通过一个新的人工智能测试平台和WMIs来发现这种机制的设想。ARL战斗空间人工智能测试平台和场景将人类和人工智能置于与MDO相关的决策环境中，使人工智能能够学习不同的决策和因素如何相互作用，以及人类如何通过这种复杂的决策树进行合作和对抗。一个关键的进展是，测试平台和场景提供了一个丰富的环境，通过抽象化那些会使决策要领稀疏化和阻碍学习的因素，有效地开发人工智能心智理论和与MDO相关的元推理，以进行复杂的决策。

另一个进展是开发高性能计算框架，以实现人工智能决策支持的连续分布式训练。这将使人工智能决策辅助系统能够托管在ARL的持久性服务框架上，因此，将来士兵可以随时随地以人类和人工智能混合团队的形式，针对人工智能兵棋推演Agent进行单独或协作训练。

这个项目的第三个进展是开发了一种可视化人工智能决策过程的方法，以实现人工智能的透明度和信任，以及人类与人工智能团队的合作决策。人工智能的推理必须既抽象又与兵棋推演环境相关，这样人类就可以理解人工智能对不同决策结果的评价，并有效地浏览人工智能的决策树，而不会造成过度的认知负担。我们已经向人工智能增强的WMI迈出了第一步，它基于三维混合现实，利用和增强人类固有的三维认知和预测的能力。随着进一步的设计，我们设想它的界面将给人以自然的感觉，同时扩大显示多个领域的信息，并使人工智能能够适时地从用户的决策中学习。这种自然的、直观的人工智能辅助决策系统，是为了支持MDO C2决策而开发的，包括隐性推理，以及协作和对抗推理，对于人类在复杂决策中信任人工智能对COA结果的估计至关重要。

5.1 进一步发展人工智能测试平台和人工智能Agent的潜力

虽然最近在游戏中对深度强化学习算法的利用显示出巨大的前景，但这种成功的前提是与一个相对简单、结构良好的游戏合作。真正的挑战出现了，因为环境越来越依赖于稀疏的观察数据、复杂和动态的Agent策略。完全在内部开发平台与在现有的开放源码库上建立平台相比，有几个权衡因素--主要是限制因素的最小化和环境开发的纯粹工作量。创建一个全新的定制平台可以完全定制与游戏相关的错综复杂的问题，尽管变得非常耗时。相反，在使用现有的库，如StarCraft2LearningEnvironment（SC2LE）时，会出现各种不可逾越的限制，但投入游戏开发的工作量会减少十倍。我们正在进行的ARL战斗空间人工智能测试平台的第二代开发，名为Simple Yeho（图14），是建立在天平两端的平衡上的，OpenAI Gym是一个用于开发强化学习算法的工具包，对输入的Agent和环境结构不做任何假设。显然必须遵循一个基本的框架，但OpenAI Gym除了提供大量的文件和例子供客户参考外，还提供了完全的设计自由。从游戏开发的角度来看，并没有立即需要解决的问题，但它确实需要成为未来一个更优先的事项。

图14 简单的Yeho人工智能测试平台

未来的问题并不局限于游戏环境，因为它们将不可避免地延伸到理论上的强化学习挑战，如无缝的多Agent通信、任务协调和固定的策略。更多需要关注的实际问题包括算法效率（限制计算密集型任务以及内存分配的心态），一种新颖的去中心化强化学习算法，以及跨多个领域的数据泛化。过度消耗硬件资源是人工智能所有分支中的一个共同瓶颈。从软件的角度来看，ARL Battlespace AI测试平台对资源消耗很少，该环境仍然专注于AI发展的研究问题，而不是全面的MDO实施，这就是为什么计算效率还不是一个紧迫的问题。归纳游戏状态信息的潜在解决方案，特别是在动态环境中，包括时差变异自动编码器和分布式时差强化学习，因为它们除了在数据点之间提供一个平滑的潜在空间外，还允许对未来的几个状态有明确的信念（这在元推理方面起作用）。我们的新型强化学习算法应该解决的其他主要问题是安全/认证、Agent决策透明度和Agent间的实时通信。将区块链整合到DEVCOM ARL框架中，将确保节点之间的安全通信线路，提供一个不可改变的分布式账本，以揭示Agent的低级决策，并向Agent引入民主投票系统，以促进团体合作，同时仍然保持个人的自私性。

5.2 进一步发展人类-人工智能协作交互的潜力

目前军事决策过程中的局限性确定了一个多学科的研究方法，用于开发复杂决策的人类和人工智能WMI。作为基础层的决策空间的现实表示，包括具有地理空间精确性的自然和人工制作的战斗空间地形。一个先进而直观的用户交互允许混合现实视角的战斗空间，使决策者能够根据作战因素探索COA的替代方案。这两个要求指导了对陆军和商业开发的战斗空间交互系统BVI的选择，作为ARL战斗空间人工智能测试平台中实现的人工智能和人类-人工智能团队发展的潜在过渡媒介。

过渡的第一步是将ARL战斗空间的网格状环境叠加到BVI真实世界的作战地形上，并将现有的BVI多模态用户交互调整为兵棋推演。图15显示了使用BVI的网络战术规划器3D视角在欧文堡地形上叠加的扩展网格的一个部分，其中友军和敌军单位位于兵棋推演会话的开始。在浏览器窗口中，可以使用战术规划工具栏的鼠标、触控板或触摸屏互动来放置和操作单位。BVI提供了添加单位的功能；路线点、战术符号和图形；以及绘制线条、多边形和文本框等特征。

图15 BVI网络战术规划器中带有网格覆盖的兵棋推演场景的三维视图

一个尚未解决的问题是，如何最好地利用BVI的混合现实（XR）可视化功能来进行协作决策（例如，在兵棋推演期间，通过加强决策者对地形的地理空间因素的理解）。加载不同的地形和创建定制的训练场景可能来自于多维数据，并以各种身临其境的形式观看，这超过了陆军其他系统的可视化能力。根据这些三维地形的广度和细节，当决策者使用一系列强大的交互方式在大面积的地形上进行操作时，界面如何显示这些信息可能会造成大量的信息过载或混乱。一个有效的界面需要被设计成不仅要选择传达哪些环境和决策空间信息，而且要选择如何从用户的有利位置呈现这些信息。

如果不可能有开发时间和精力，BVI的API提供了机会，以标记、标签和定位在地形之上的场景适应性网格的形式嵌入视觉辅助，作为决策者的空间管理干预措施。例如，图15中描述的网格的行和列可以被标记或编码，以快速定位实时事件和人工智能产生的活动。多维网格结构和编码方案可以将兵棋推演提升到以MDO为特征的复杂水平，同时减轻一些基于地形的空间管理问题。

在空间和时间领域的数据分析中协调战斗空间的多个视图，可视化提供了额外的方法，促进兵棋推演期间的复杂决策。当需要一个共享的MDO战斗空间呈现时，可以通过在不同的可视化模式上实施多个协调视图来实现协作战略规划模式，根据分布式指挥人员的输入进行互动更新。指挥人员的输入也可以指导视觉过滤器对协调视图的应用，从而减少不必要的复杂性，突出场景或任务关键的战斗空间信息。

图16显示了SyncVis视觉分析系统，该系统旨在显示多个协调的数据分析视图，支持数据探索和理解。SyncVis通过用户互动将每个视图中显示的信息与其他视图联系起来，从而产生多种数据可视化。这个例子显示了SyncVis在四个协调视图中对COVID分类人群数据分析的二维界面。变量选择器（选择六个属性）、地图/地形、相互信息图和每个选定变量的叠加区域图。

图16 SyncVis二维界面显示COVID数据分析的多种协调的可视化效果

SyncVis的可视化功能可以与使用PSF的HPC分析工作流程后端集成。PSF服务器可以向BVI和SyncVis流传作战和Agent行为数据，创造一个统一的战斗空间探索体验。基于用户按需输入和过滤的协调战斗空间视图的好处有待研究。

一个灵活的兵棋推演环境似乎是关键，因为每个训练场景、COA和任务计划都是在MDMP和相关军事理论的约束下制定的，但又是独一无二的，并取决于战斗空间及其操作变量。一个HPC PSF数据分析处理管道为WMI提供动力，士兵或指挥官按需协调战斗空间的BVI和SyncVis可视化，将彻底改变现有的兵棋推演范式，并触及MDO固有的复杂程度，以及赢得胜利所需的人类和AI指导的决策水平。

6.结论

我们强调了三个关键的发展领域，即人工智能引导的决策指导，支持这种指导的计算基础设施，以及决策透明度的混合现实表现的发展。这些领域的进步需要跨越许多不同学科的专业知识。新的人工智能发展需要融合神经科学、心理学和数学的思想，以克服复杂决策中长期存在的问题的瓶颈。这包括跨时间尺度的学习和变化环境下的灾难性遗忘，以及更具体的兵棋推演问题，如具有不确定性、欺骗和博弈论的多Agent决策。计算基础设施也需要发展，因为计算能力和数据框架对于在战术边缘产生人-人工智能团队的共同操作图来说都是必不可少的。为了有效地开发，应该通过一个共同的框架来抽象出专有的限制和软件的依赖性，并为使用和故障排除提供清晰的文档，以使学术界、政府和工业界更好地专注于解决人与人工智能的合作问题。这个通用框架应该包括有效的信息传递，同时提供灵活性和适应性，以满足人工智能开发和人类用户在训练和实际使用环境中的需求。最后，交互技术的开发本身需要跨学科的协同专业技术。一个基础性的问题是如何压缩信息使之被用户有效地理解，以及如何最好地利用用户的互动来进行机会主义学习。人类的大脑并不处理所有的感官信息，而是对世界进行预测和假设，以便在信息不完整的环境下节约计算。一个有效的WMI应该同时预测潜在的决策结果以及个人用户的期望和假设。此外，人工智能决策辅助工具必须估计用户的默契，使其能够提供最相关的信息和最有希望的选择，这些信息来自整个作战领域。

成为VIP会员查看完整内容