知识与数据互补的战术级兵棋行为决策框架设计与实现

战术级兵棋以随机的方式模拟战争中的动态过程, 能够为军事智能决策技术提供贴近真实战争的决策背景和试验环境. 提出了知识与数据互补的行为决策框架, 用于兵棋多实体的指挥控制. 该框架一定程度上解决了传统基于知识推理决策中行为模式固定、迁移能力不强的缺点, 也解决了基于兵棋数据挖掘的软决策算法对大量人类高质量复盘数据的需求, 将知识、数据与学习的方法综合起来, 形成基于知识推理的决策算法处理宏观动作, 基于数据挖掘的软决策算法处理微观动作, 通过自对抗复盘数据进行迭代学习, 提升决策模型能力. 基于该框架, 设计并实现了一个兵棋人工智能（artificial intelligence, AI）, 该兵棋 AI 在全国性智能兵棋比赛中取得较好成绩, 并体现出灵活性高、泛化性好的特性.

近年来, 以深度强化学习为代表的 AI 技术在 Atari[1]、围棋[2-3]、王者荣耀[4]、星际争霸域[5]等游戏中取得了巨大的成功, 显示了强大的态势感知和空间探索能力. 同时, 军事智能化的需求也在推动 AI 技术在军事决策领域的应用, 战术级兵棋以随机的方式模拟战争中的动态过程, 能够为军事智能决策技术提供贴近真实战争的决策背景和试验环境. 然而, 深度强化学习在解决军事决策问题上存在两个明显不足：一是端到端的黑箱模型限制了模型的可解释性, 使其难以形成人在回路的指挥控制方式, 同时人们也不知道决策模型的推理过程；二是深度神经网络学习到的参数只适用于特定场景的状态到动作的映射, 当作战场景有较大改变, 深度神经网络难以迁移并适应新的作战场景. 另外, 军事决策环境也面临状态空间巨大、多实体协同、长时依赖、不完全信息等难以解决的问题. 在战术级兵棋的决策环境中, 深度强化学习仅仅解决了少量棋子联合控制的问题[6-7] . 因此, 鉴于深度强化学习在实际应用方面面临的重重困难, 从其他技术角度探索军事智能决策的应用仍然值得研究.

传统的计算机生成兵力（computer generated forces, CGF）是作战仿真中重要的技术之一, 模仿真实的作战实体, 对仿真中的虚拟实体进行行为控制. 它借鉴了很多 AI 领域的技术, 如有限状态机[8-10]、规则系统[11-13]、软计算技术[14-16]、自动规划[17-19]等方法, 这些方法基本上都是基于专家知识进行构建, 从定性分析的角度进行决策, 能够按照人类逻辑决策运行, 具有适应范围广、逻辑清晰、可解释性强的优点, 但是这类方法的决策逻辑来源于专家知识的程序化, 其 “条件-结果”式模式映射个数有限, 导致行为模式比较固定, 缺乏灵活性和鲁棒性. 随着大数据和神经网络技术的发展, 一些学者尝试使用人工复盘数据, 从量化分析的角度对兵棋的行为进行决策. 石崇林从兵棋数据的采集、处理、分析 3 个角度, 介绍了兵棋数据处理的一些方法, 并集成这些方法设计了兵棋推演数据分析原型系统[20] . PAN 等通过分析地形因素和复盘数据中的威胁因素, 并用权重因子对信息素加权, 以合成值估计敌方棋子可能的位置, 得到 top-3 的预测准确率为 70% [21] . 张可等有效整合了兵棋专家知识的模糊推理和兵棋复盘数据的学习, 从而提高了地图关键点的推理质量[22] . 刘满等通过挖掘兵棋历史推演数据, 提取多个位置评价的指标, 利用多指标综合评价软优选算法和兵棋基本规则输出棋子的下步行动[23] . 量化分析有效整合了复盘数据中的历史信息和当前的态势信息, 以综合评估的结果支持量化决策, 具有较高的灵活性和鲁棒性, 但是这种决策方法需要大量高质量的人工复盘数据, 这一条件往往很难满足. 鉴于以上两类行为决策方法的优缺点, 本文创新性地将它们结合起来, 进行优势互补, 提出了知识与数据互补的行为决策框架, 用于兵棋多实体的指挥控制. 该框架集成了知识推理和数据挖掘的方法, 不需要人工复盘数据, 将知识、数据与学习融为一体, 形成基于知识驱动的决策算法处理宏观动作, 基于数据挖掘的软决策算法处理微观动作, 通过自对抗复盘数据进行迭代学习, 提升决策模型能力. 基于这一决策框架, 编程实现了一个能够自主决策的兵棋 AI. 该兵棋 AI 先后多次参加全国性战术级兵棋比赛, 在 2021“庙算杯”人机对抗测试赛 1 中取得总成绩第 3 名, 图灵测试第 2 名, 展现了较好的对抗能力和决策灵活性.