人工智能(AI)在战略决策中的作用仍在不断发展。人们对道德、升级动态、测试和评估标准以及如何在军事规划中最好地调整人员和模型表示关切。然而,在这些讨论中,生成人工智能和大型语言模型(LLMs)在兵棋推演和战略分析中的作用往往被忽视。
如果有更多的人--从学者和相关公民到军事专业人员和公务员--获得生成式人工智能工具,并了解如何将其融入分析性兵棋推演,那么指导外交政策的思想和辩论将更加多样化。
英国国防部的一本手册将兵棋推演定义为 "结构化但智力自由的安全失败环境,以帮助探索什么可行(获胜/成功),什么不可行(失败/失败),通常成本相对较低"。游戏是决策的实验室,可以帮助实践者评估从战术选择到部队设计等各个方面的权衡。从这个角度来看,游戏在这方面有着悠久的历史,通常处于政策研究和社会科学的交汇点。
从战时和冷战时期到当代关于对抗大国的辩论,兵棋推演一直是美国战略分析的主要内容。这些模拟驱动的演习通过发展假设的冲突场景来评估与战争有关的理论、假设和战略。因此,兵棋推演在政策圈内有多种用途。它们促进了跨机构和利益相关者之间的对话,营造了一个新想法不断涌现、分析人员可以评估关键假设的环境。这一过程有助于形成决策并为决策提供信息,因为它有助于提高整个政策圈的认识。事实上,游戏往往是完善战略的私人论坛,也是提高公众对这些问题认识的工具。
无论是机密还是非机密,兵棋推演都是一种合成数据形式。它们以场景为基础,即使有大量研究和敏感情报的支持,也仍然是现实的近似值。游戏无法预测未来,但 大多数分析师也无法预测未来。游戏能做的是突出权衡,为分析决策提供一个论坛。游戏还能在分析 "尾部风险"和低概率、高后果事件方面发挥关键作用。这种动态使兵棋推演和红队成为战略分析的相关组成部分。
由美国政府举办或为其举办的现代兵棋推演往往耗资巨大、不透明且容易夸大其词。对于运行分析性兵棋推演的相关成本,没有清晰、透明的核算,典型游戏的成本从数十万美元到数百万美元不等。根据2023 年政府问责局(GAO)的一份研究报告,"获取兵棋推演数据存在障碍,即将举行的兵棋推演信息没有共享,各部门也没有制定兵棋推演人员的标准教育和资格认证"。正因如此,胡佛研究所的雅克琳-施耐德(Jacquelyn Schneider)等学者开始着手建立一个游戏资料库,并主张提高设计方法和资金来源的透明度。一些兵棋推演的资金来源并不总是很清楚,包括政府内部和外部的资金,这让人对研究结果的客观性产生怀疑。
在兵棋推演中加入人工智能既能降低传统游戏的运营成本,又能增加对战略和决策进行更严格分析的机会。
分析师可以使用微调数据集来训练模型,以代表不同的利益相关者。游戏的关键在于玩家的质量,但最优秀的玩家往往超额预订并处于移动状态。为了一场短时间的比赛(即一到三天)而飞往世界各地的成本很高,而环城公路内部人员的日程安排也很苛刻。
因此,二十一世纪的分析师可以利用生成式人工智能和 LLM 来创建游戏代理,而不是直接依靠围坐在桌边的人类玩家来玩游戏。最近的研究表明,合成数据可以有效地反映各种人类亚群的反应模式,这对得出特定方面的预测结论很有帮助。利用兵棋推演中的合成数据生成行动,可以改变人类玩家看待问题的方式,将他们推向不同的观点和辩论。
想象一下,在新型兵棋推演游戏中,一系列决策者--人类玩家--与人工智能生成的角色玩家进行互动,这与大多数现代视频游戏类似。例如,每个接受专业军事教育的学生都可以与联盟伙伴一起复制计划,并与敌对的人工智能作战,复制敌方的条令甚至战略文化。这些游戏的成本较低,主要是将差旅费、酬金和扮演敌方的脾气暴躁的顾问的成本与收集和整理用于培训法学硕士的数据的人工成本进行交换。此外,游戏时间较短,设计团队可以进行多场游戏,收集更多有关决策的数据,而不是进行一场昂贵的游戏。
兵棋推演的另一个代价高昂的方面--也是经常容易出现取样偏差的方面--是用于创建游戏起始条件的 "世界化"。为了创建替代性的 "世界",研究团队花费了无数的时间来进行确认偏差,选择最糟糕的地形和最可怕的近似敌对势力来对抗。这一过程代价高昂,而且往往会在不经意间向最糟糕的情况靠拢。条条大路通罗马,这种倾向会影响玩家的决策。
问题是,如果从错误的故事开始,对话就会变得有限。这些起始故事--基本场景--以及玩家角色(或人物)和要求他们做出的选择(或策划)是兵棋推演的核心。例如,如果一个人在开始危机游戏时,对手致力于战争,军队已经全面动员,而美国军队不在状态,政治阶层容易分裂,那么游戏的初始条件就会造成路径依赖性选择和错误的观察。对手总是赢家。自己总是输。更糟糕的是,能力被视为抵消,而技术上的神来之笔会从根本上改变故事。
利用人工智能,游戏设计师可以使用生成图像和文本的混合方式,以较低的成本创造出多个词语。研究人员可以定制数据集,与创建合成玩家类似,不是编写一个,而是编写一系列映射不同战争道路(即不同初始条件)的场景。这些不同的初始条件能更好地反映复杂系统对初始条件的敏感程度。这种变化成为分析决策的重要组成部分,尤其是如果不同的处理方法之间存在差异,就会为评估战略创造更大的可能性空间。只需花费一个传统兵棋推演的成本,分析人员就可以运行多个推演,并根据不同的情景假设,了解哪些目的、方式和手段组合能产生最佳优势。
此外,降低图像制作成本,超越国家安全博弈中常见的典型 PowerPoint 幻灯片、糟糕的计算机图形和文字繁杂的游戏包,可以带来更有力的见解。事实证明,艺术实际上能刺激大脑功能。目前,大多数添加了风格化图形和多媒体的游戏往往会让人大伤脑筋。通过使用Midjourney 和DALL*E3 等程序,生成式人工智能可以改变这种状况。
如前所述,大多数游戏都缺乏方法,因此即使是最基本的决策见解也很难复制。典型的游戏报告会详细介绍游戏场景、玩家角色和目标,但往往忽略了更广泛的文献综述和方法讨论。读者看到的是游戏规则,而不是方法,通常是按回合列出行动、反应和反作用的叙述。美国政府问责局称,即使是这种默契的兵棋推演报告方法,在美国国防部这个全球最大的兵棋推演资助机构中也缺乏正式标准。
单靠技术是无法克服失败的分析过程的。相反,未来使用生成式人工智能构建的兵棋推演应遵循一套与更广泛的科学界所称的复制标准相关联的最佳实践。复制既包括提出见解,也包括解释结果。事实上,使用严格的复制标准有助于提高研究成果的质量,从本质上讲就是在研究过程中增加了制衡机制。应用到游戏中,这意味着不仅要制定规则,还要抽象出一个逻辑顺序,阐明在对手反应(即反馈回路)和信息不完善(即不确定性)的情况下,如何以及为何做出决策。
这种逻辑顺序是通过盘点提示和结构化数据标签来捕捉的。未来,它还可以建立红队技术,根据合成数据和玩家互动,显示特定决策逻辑如何以及何时开始崩溃。换句话说,人类始终处于循环之中,不仅设计游戏,还对游戏进行压力测试,并利用测试结果分析决策制定。
现有的生成式人工智能产品为降低分析兵棋推演的成本和提高其严谨性提供了可行的方法。进入这一领域的唯一障碍是人类的想象力,以及传统的国防官僚机构是否愿意考虑战略分析的替代方法。
为此,国防部门需要加快对TF LIMA--新的生成式人工智能任务组--等工作的支持,以及对全球信息主导演习等实验的支持。更重要的是,各军种需要开始在较低层次资助副驾驶员和其他非机密的人工智能测试,同时研究如何以最佳方式培训军事专业人员,使其能够与汇总数据的模型合作而不是对抗。这项工作很可能需要对专业军事教育进行重大改革,将数据科学、统计学、研究方法和红队实践纳入其中。
参考来源:CSIS