智能博弈决策大模型智能体技术综述

人工智能技术的发展极大推动了智能博弈决策问题求解范式的变革，从最优解、均衡解到适变解，如何构建基于生成式大模型的智能博弈自适应决策智能体充满挑战。博弈强对抗环境中兵力分配和多实体协同是研究排兵布阵和作战协同的核心课题。基于技能、排序和偏好元博弈模型构建的策略强化学习、策略博弈树搜索与策略偏好投票选择方法，设计了满足生成时规划的大模型智能体架构。该架构可对齐指挥员意图，具有可行性、适用性、扩展性，可为自适应决策过程提供可解释性策略推荐。从基座模型构建、目标引导博弈强化学习和开放式元博弈策略学习分析了关键技术需求。期望为强化学习类模型、博弈学习类模型与生成式大语言模型结合的交叉研究提供参考。

为了推进美国战略与预算评估中心提出的“决策中心战”，DARPA 于 2017 年提出了马赛克战概念，兰德公司利用上校布洛托博弈(Colonel Blotto Game)研究了马赛克战作战资源分配问题[1]。作战资源分配主要包括兵力、火力、武器和后勤等子问题，上校布洛托博弈作为一类典型的兵力布势问题模型[2]，为排兵布阵问题研究提供了基准参考。作为上校布洛托博弈模型的泛化形式，强权外交 (Diplomacy)这款桌游(特别是无通信版本)很好地刻画了多方一般和多阶段不完美信息博弈的动态交互过程[3]。为了利用智能博弈相关技术研究作战协同问题，DARPA 启动“打破游戏规则的人工智能探索 ”(Gamebreaker Artificial Intelligence Exploration)项目[4]，致力于开发人工智能并将其应用到现有的开放世界视频游戏中，以定量评估游戏平衡，确定显著有助于游戏平衡的基本参数，并从新功能、战术和规则修改等角度探索导致游戏不稳定性的变量，旨在为美军创造更大的作战优势，或在对手寻求优势时寻求对抗的平衡。如何生成多种类型行动方案计划为指挥员推荐策略选项是联合全联指控中为对手制造多重困境(dilemma)的主要方法途径[5]。利用军事人工智能技术辅助决策推荐是当前的研究前沿[6]。早期的一些研究采用抽象桌游(abstract board games, ABG) 来实时分析大规模对抗问题，如 Stilman 等[7]基于语言几何(linguistic geometry, LG)工具与博弈理论构建的私人参谋长，Serge 等[8]基于语言几何与对抗情报推理决策构建的计算机模拟程序 LG-RAID，其中语言几何作为软件程序的大脑负责预测对手的作战行动方案。近年来，围绕多方对抗问题，2020 年 DARPA 开展了针对“对战敌方战术的构建性机器学习”(constructive machine learning battle for enemy tactics, COMBAT)项目[9]，利用自然语言处理提取非结构化文本信息，利用博弈论与强化学习等方法生成应对美军的作战行动方案，旨在为仿真环境提供敌军旅级兵力行动模拟。2023 年美国海军陆战队大学以 Command 为基准环境，开展了将生成式人工智能应用于仿真与兵棋推演的相关探索[10]。Hinton 等[11]分析了生成式人工智能在兵棋推演领域的想定生成、对手 AI、红队等方面的应用前景。许霄等[12]提出了作战行动序列引导和约束的联合作战兵棋推演智能决策框架，设计了目标驱动的自适应作战控制和任务式指令驱动的战术任务策略优化模块。人工智能技术的跨越式发展为智能博弈决策问题求解定义了新范式，从传统的优化理论最优解、博弈理论均衡解，逐渐过渡至如今的模型理论适变解[13]。为智能指控系统构建多范式融合的博弈决策策略推荐方法充满挑战。本文围绕智能博弈自适应决策挑战，基于元博弈模型设计了决策大模型智能体的指控思维链，以满足生成时规划，最后从决策基座模型构建、智能博弈决策策略学习和人机协同决策方式共三个方面分析了关键技术需求。