在这个前所未有的技术驱动转型时代,我们比以往任何时候都更需要积极投资开发强大的人工智能(AI),用于兵棋推演以支持决策。通过推进人工智能系统并将其与人类判断力相结合,将能增强全域感知,提高决策周期的速度和质量,为新的行动方案提供建议,并更迅速地反击对手的行动。因此,必须加快人工智能的发展,以更好地应对目前需要人类智慧才能应对的现代挑战和困境的复杂性,并在可能的情况下尝试超越人类智慧——不是取代人类,而是以机器的速度增强人类决策并为其提供更好的信息。尽管深度强化学习在智能体行为开发方面不断取得令人鼓舞的成果,可用于战斗建模和仿真中常见的超视距复杂任务,但仍需进一步研究,才能使人工智能的规模扩大到能够处理兵棋推演中错综复杂的广阔状态空间,从而进行概念开发、教育或分析。为了帮助应对这一挑战,本研究开发和实施一个分层强化学习框架,其中包括多模型方法和维度不变观测抽象。
鉴于对手实施的活动以及最近在人工智能变革能力方面取得的突破,美军显然开始更认真地投资专用于兵棋推演的人工智能开发。美国国家人工智能安全委员会(NSCAI)详细阐述了两个信念:(1)“计算机系统解决问题和完成原本需要人类智慧才能完成的任务的能力迅速提高,在某些情况下超过人类的表现,这是改变世界的能力”;(2)“人工智能正在扩大美国已经进入的脆弱窗口”。有鉴于此,NSCAI得出结论:“美国必须立即行动起来,将人工智能系统投入实战,并在人工智能创新方面投入更多的大量资源,以保护美国的安全,促进繁荣,保障未来”。NSCAI 认为,通过推进人工智能系统并将其与人类判断力相结合,将能够增强全域感知,提高决策周期的速度和质量,为不同的作战行动提供建议,并更迅速地反击对手的行动。
虽然美国在大多数领域都享有军事优势,但机器学习(ML)的扩散化已开始为竞争对手和其他国家行为者提供无数的颠覆性机会。因此,美军现在比以往任何时候都加大研究和实验,以便对人工智能的优缺点以及如何将其用于规划和兵棋推演有一个深入的基础认识。这样,才能更好地做好准备,以应对战略突袭和破坏。例如,如今的作战行动分析主要侧重于评估友军的计划,而很少强调对手可能会如何根据自身的目标和能力做出反应。尽管不遗余力地试图了解对手的想法以及他们在冲突中会如何行动,但总是会受到自己想象力的限制。托马斯-谢林(Thomas Schelling)在他的“不可能定理”(Impossibility Theorem)中如此说到:“一个人,无论他的分析多么严谨,想象力多么丰富,都不可能做到的一件事,就是列出一个他不会想到的事情清单”。人工智能支持的兵棋推演甚至有可能克服这一限制,创造出有自己目标的智能体,而这些智能体并不一定受限于人类思维和规划方式,因为人类思维和规划方式通常是基于几十年根深蒂固的经验的。此外,仅从数据中学习新的行为,人工智能就能自动执行原本需要人类智慧才能完成的任务。
在一份由英国国防科学技术实验室(Dstl)资助的报告中,新兴技术与安全中心(CETaS)进行了一项名为《兵棋推演中的人工智能》的研究:该研究包括文献综述、专家访谈、案例研究分析以及召集国防和游戏人工智能领域专家的研讨会。Knack 和 Rosamund 在他们的研究中指出,更好地理解和适当地使用人工智能可能会带来“兵棋推演中潜在的革命性变化”,通过投资人工智能使能技术,能够通过为决策者引入新颖的数据分析技术,同时促进决策分析,从而实现对对手的决策优势。
在这份报告中,Knack 和 Rosamund 确定了一份由专业兵棋推演设计师、军事和安全专家以及非国防人工智能专家组成的使用案例清单,涵盖兵棋推演设计、兵棋执行、兵棋分析和兵棋后勤等不同要素。所确定的领域包括那些可以利用目前存在的、正在用于其他应用的人工智能解决方案(如自动语音转录)的领域,以及更具革命性的高风险、高回报人工智能解决方案,以支持 COA 的生成和裁决。 虽然在推进人工智能领域的发展方面进行了大量研究,但兵棋推演和军事规划与迄今为止一直使用人工智能解决的传统问题(如图像分类和自然语言处理)有很大不同。任务分析和规划通常需要人类的直觉和启发式方法来限制搜索问题的规模。虽然启发式方法确实能更容易地找到可接受的解决方案,但这些解决方案的可扩展性或可靠性通常不足以评估可能出现的大量意外情况。此外,直觉也可能在非常复杂的问题中失效,例如那些涉及到有许多不同参与者的高维空间以及复杂的武器和传感器交互的问题。不幸的是,这些复杂性正是可能决定未来战争的特征。
迄今为止,竞技游戏一直是学习如何实施人工智能以支持兵棋推演的良好试验平台。早期的成功包括掌握跳棋、西洋双陆棋、国际象棋和围棋。人工智能方法在电子游戏中也取得了成功,如 Atari 游戏、超级马里奥兄弟、Quake III、Dota 2、星际争霸 II和无上限德州扑克。然而,竞技游戏通常都有一套固定的规则、明确的参数和基于已知变量的可预测结果。虽然这些游戏能为战略、决策和风险评估提供有价值的见解,但现实世界中的兵棋推演场景往往更为复杂——可能的初始游戏状态更多,分支系数更大——从而导致更多不可预测的结果。因此,如何将人工智能从这些游戏中获得的成功转化为真正的军事行动是一项挑战。不过,从这些游戏中获得的人工智能学习和适应能力方面的进步,为人工智能在作战仿真中更细致的应用奠定了坚实的基础。
正如 CeTAS 报告所详述的那样,可以采用大量不同的方法来利用人工智能支持兵棋推演;不过,在本章的其余部分,将讨论人工智能与兵棋推演的关系,即创建能够在战斗建模和仿真所特有的庞大而复杂的状态空间中做出理性决策的智能体。
然而,要证明人工智能能够赢得游戏或取得超人的表现,只是证明人工智能能够真正为兵棋推演者、作战规划者和战场指挥官提供有用见解的第一步。不过,设想这些智能体将成为创建现代决策辅助工具的基础,与更传统的工具相比,它们能为决策者提供更高的准确性、速度和灵活性——有可能加快决策过程,并提供关键的洞察力。美军认为,随着进一步深入多域作战,对抗人工智能对手,忽视这一步将会带来巨大风险。
虽然人机协作的概念最初是由利克利德(Licklider)在 1960 年提出的,但前国际象棋世界冠军加里-卡斯帕罗夫(Gary Kasparov)在 1997 年输给 IBM 的“深蓝”(Deep Blue)数年后,首次提出了“半人马国际象棋”(Centaur Chess)的概念,即人类与计算机在对弈过程中进行协作。尽管被人工智能击败,但卡斯帕罗夫并没有将人工智能视为威胁,而是鼓励将人工智能视为一种工具,当它与人类的能力相结合时,可以带来前所未有的成就。卡斯帕罗夫在他的著作《深度思考:机器智能的终结和人类创造力的开始》一书中,卡斯帕罗夫强调了利用人类和机器互补优势的必要性。计算机擅长暴力计算,每秒能分析数百万个局面,同时轻松计算出最佳的近期战术行动。另一方面,人类对战略、创造力和考虑特定棋步长期影响的能力有更深刻的理解,而这一切主要靠直觉。卡斯帕罗夫认为,人类的直觉和机器的计算结合在一起,往往能比顶尖特级大师或计算机单独发挥出更强的棋力。卡斯帕罗夫指出,在许多情况下,即使是排名相对较低的棋手与计算机配对也能胜过顶级特级大师。
有趣的是,卡斯帕罗夫还指出,随着计算机国际象棋程序变得越来越强大,人类棋手在这种半人马伙伴关系中的角色也在不断演变。最初,人类侧重于战略,而计算机侧重于战术,但随着国际象棋人工智能的改进,人类越来越多地开始扮演“质量控制”的角色,确保计算机推荐的棋步与人类更广泛的战略目标相一致。事实上,卡斯帕罗夫经常说,国际象棋的未来可能不是人类与机器的对决,而是人类与机器配对。合作融合了机器的计算能力和人类提供背景、理解和直觉的能力——这种协同作用所产生的棋艺水平超过了任何一方单独发挥所能达到的水平。
为了应对人工智能在应对复杂战争方面固有的挑战,正在利用最近在 RL 领域取得的成功和 HRL 领域的新兴研究,开发能够在大型复杂环境中运行的无脚本智能体,同时将训练集的数量限制在合理范围内(例如,将训练限制在美国防部可访问的高性能计算机上可在几天时间内进行的训练)。认识到,这只是人工智能如何用于支持兵棋推演的一个用例。尽管如此,在作战仿真中集成智能体是基于人工智能的作战行动评估生成和分析所必需的基础要素,也是在不久的将来开发先进的人机协同决策辅助工具所必需的基础要素。
为了实现这一目标,通过以下方式应对当前将人工智能应用于兵棋推演的挑战:
1.开发一种由智能体、决策和策略分层分解组成的智能体架构,以管理大型状态-动作空间所需的指数级计算增长。
2.开发一个 HRL 训练框架,允许使用不同层次的观测抽象来训练多个分层的智能体、决策和策略。
3.为层次结构的每个层级开发独立的、分层的、维度不变的观测抽象,从而进一步实现 RL 模型的可扩展性和重复使用。
4.开发一种多模型方法,可在不同的独立训练行为模型(如机器学习、专家系统、基于规则、优化算法、博弈求解)之间动态切换,使能够利用非常专业的模型,而不是试图训练一个在任何情况下都能实现最佳性能的单一模型。
5.通过在低保真和高保真战斗仿真中实施,展示框架和架构的可扩展性。
智能体架构包括开发一个由智能体、决策和策略组成的嵌入式层次结构。智能体层次结构主要将部队分解为 3 至 5个单元的小组,每个小组由一个管理性智能体控制。然后,这些管理性智能体组合在一起,由指挥官智能体控制。只有少数单元的简单场景可能只需要两级智能体,而涉及数十个单元的复杂场景则可能需要三级或更多级的分层结构。由于研究打算考察更复杂的场景,因此预计至少需要三级层次结构。
在智能体的层次结构中,还有一个决策层次结构。多层次的决策使得每个层次都可以根据不同的目标和不同的抽象程度进行训练,从而使扩展到非常复杂的场景成为一个更容易解决的问题。此外,这种分层方法还隐含着对智能体协调与合作的训练,因为上层控制着下层的总体行为。除最底层外,决策层次结构的每一层都可以被视为抽象或认知层(即,它们最初都是高层决策,最终将为原始行动提供信息)。只有处于层级最底层的智能体才是游戏板上的实际实体,会采取直接影响环境的离散或原始行动。
迄今为止,已经发现,创建维度不变的观测抽象可以在更大的游戏板上训练智能体,同时还能产生智能行为,这在以前的合理训练预算条件下是不可能实现的。根据正在计算的层次结构使用不同级别的抽象。层次结构最高层的指挥官使用的是粗略抽象的游戏板,而层次结构最低层的实际单元使用的是保真度更高但本地化的状态空间抽象。在这个特定的单元级抽象中,并没有抽取游戏的全部状态,而是以行动中的智能体(即游戏板上轮到采取行动的单元)为中心创建了一个局部抽象。然后,使用一个片断线性空间衰减函数,根据相关项目与行动中单元的距离计算权重。然后将这些权重乘以每个通道各自单元内的值,按径向求和,再插入智能体局部观察空间中各自通道的最外层单元。这就为智能体提供了一个正交的信息表征,最远可达有限数量的六边形(如 3 个六边形),但仍有衰减的信息表征,这些信息可能距离更远,因此目前与智能体的相关性较低。
开发的多模型框架也取得了成功,在每个行动选择步骤中,多模型将观测结果作为输入,并将其传递给每个得分预测模型。然后,每个得分预测模型都会推导出一个预测的游戏得分,并将其输入一个评估函数。然后根据评估函数选择特定的行为模型。最后,原始观察结果被传递给选定的行为模型,由其产生一个动作。为了提供选择适当行为模型的评估函数,为资源库中的每个行为模型训练了一个单独的分数预测模型。该分数预测模型是一个卷积神经网络(CNN),可根据当前游戏状态推断出游戏分数。这个预测的游戏得分假定蓝方按照各自的行为模型继续游戏,红方按照特定的对手行为模型继续游戏。鉴于研究中使用的战斗仿真Atlatl,是一种回合制游戏,而不是时间步长仿真,因此将游戏板上实体被提示采取行动的每个实例都称为行动选择步骤。虽然到目前为止,都是使用游戏数据进行监督学习来训练得分预测模型,但最近开发了一个单独版本的得分预测模型,并正在对其进行测试,该模型利用了 DRL 而不是监督学习——这有可能使这种方法更容易扩展。