以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋 AI 的研究提供了借鉴。 智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。 提出基于随 机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推 演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问 题;从兵力协同、智能体网络设计、对手建模和训练机制共 4 个方面分析了关键技术。 期望为海空兵棋 AI 设计实现 提供架构指导。传统作战推演中智能体通常采用规则和分层状态 机等决策机制,推演采用基于事件驱动的仿真机制,智 能水平和灵活性较低。 近年来人工智能(Artificial In⁃ telligence, AI) 技术在围棋[1] 、德州扑克[2⁃4] 、星际争 霸[5] 、斗地主[6] 、Dota2 [7] 、王者荣耀[8] 等一系列游戏博 弈中取得重大突破和进展,其对抗水平基本达到或超 越了人类。 其中星际争霸等即时策略游戏与兵棋推演 问 题 最 为 相 似。 完 全 集 中 式 学 习 方 法 包 括 CommNet [9] 、BiCNet [10]等;集中式训练分散式执行方法 主要有反事实多智能体 ( Counterfactual Multi⁃Agent, COMA) [11] 、MADDPG [12] 、VDN [13] 、QMIX [14] 、QTRAN [15] 等。 这些以深度强化学习为核心的智能博弈技术发展 为利用兵棋的智能作战推演提供了新的解决途径。 本文首先基于随机博弈理论建立海空跨域协同决 策博弈模型及解概念;其次,在分析典型兵棋 AI 框架 的基础上,提出海空兵棋 AI“双层架构”设计方案;最 后,从兵力协同、智能体网络设计、对手建模和训练机 制方面分析了关键技术。