战术级兵棋以随机的方式模拟战争中的动态过程, 能够为军事智能决策技术提供贴近真实战争的决策背景和试验环境. 提出了知识与数据互补的行为决策框架, 用于兵棋多实体的指挥控制. 该框架一定程度上解决了传统基于知识推理决策中行为模 式固定、迁移能力不强的缺点, 也解决了基于兵棋数据挖掘的软决策算法对大量人类高质量复盘数据的需求, 将知识、数据与学 习的方法综合起来, 形成基于知识推理的决策算法处理宏观动作, 基于数据挖掘的软决策算法处理微观动作, 通过自对抗复盘数 据进行迭代学习, 提升决策模型能力. 基于该框架, 设计并实现了一个兵棋人工智能(artificial intelligence, AI), 该兵棋 AI 在全国性 智能兵棋比赛中取得较好成绩, 并体现出灵活性高、泛化性好的特性.

近年来, 以深度强化学习为代表的 AI 技术在 Atari[1]、围棋[2-3]、王者荣耀[4]、星际争霸域[5]等游戏中 取得了巨大的成功, 显示了强大的态势感知和空间 探索能力. 同时, 军事智能化的需求也在推动 AI 技 术在军事决策领域的应用, 战术级兵棋以随机的方 式模拟战争中的动态过程, 能够为军事智能决策技 术提供贴近真实战争的决策背景和试验环境. 然而, 深度强化学习在解决军事决策问题上存在两个明显 不足:一是端到端的黑箱模型限制了模型的可解释 性, 使其难以形成人在回路的指挥控制方式, 同时人 们也不知道决策模型的推理过程;二是深度神经网络 学习到的参数只适用于特定场景的状态到动作的映 射, 当作战场景有较大改变, 深度神经网络难以迁移 并适应新的作战场景. 另外, 军事决策环境也面临状 态空间巨大、多实体协同、长时依赖、不完全信息等 难以解决的问题. 在战术级兵棋的决策环境中, 深度 强化学习仅仅解决了少量棋子联合控制的问题[6-7] . 因此, 鉴于深度强化学习在实际应用方面面临的重 重困难, 从其他技术角度探索军事智能决策的应用 仍然值得研究.

传统的计算机生成兵力(computer generated forces, CGF)是作战仿真中重要的技术之一, 模仿真实的作战实体, 对仿真中的虚拟实体进行行为控制. 它借鉴 了很多 AI 领域的技术, 如有限状态机[8-10]、规则系 统[11-13]、软计算技术[14-16]、自动规划[17-19]等方法, 这些 方法基本上都是基于专家知识进行构建, 从定性分 析的角度进行决策, 能够按照人类逻辑决策运行, 具 有适应范围广、逻辑清晰、可解释性强的优点, 但是 这类方法的决策逻辑来源于专家知识的程序化, 其 “条件-结果”式模式映射个数有限, 导致行为模式比 较固定, 缺乏灵活性和鲁棒性. 随着大数据和神经网络技术的发展, 一些学者 尝试使用人工复盘数据, 从量化分析的角度对兵棋 的行为进行决策. 石崇林从兵棋数据的采集、处理、 分析 3 个角度, 介绍了兵棋数据处理的一些方法, 并 集成这些方法设计了兵棋推演数据分析原型系统[20] . PAN 等通过分析地形因素和复盘数据中的威胁因素, 并用权重因子对信息素加权, 以合成值估计敌方棋 子可能的位置, 得到 top-3 的预测准确率为 70% [21] . 张可等有效整合了兵棋专家知识的模糊推理和兵棋 复盘数据的学习, 从而提高了地图关键点的推理质 量[22] . 刘满等通过挖掘兵棋历史推演数据, 提取多个 位置评价的指标, 利用多指标综合评价软优选算法 和兵棋基本规则输出棋子的下步行动[23] . 量化分析有 效整合了复盘数据中的历史信息和当前的态势信息, 以综合评估的结果支持量化决策, 具有较高的灵活 性和鲁棒性, 但是这种决策方法需要大量高质量的 人工复盘数据, 这一条件往往很难满足. 鉴于以上两类行为决策方法的优缺点, 本文创 新性地将它们结合起来, 进行优势互补, 提出了知识 与数据互补的行为决策框架, 用于兵棋多实体的指 挥控制. 该框架集成了知识推理和数据挖掘的方法, 不需要人工复盘数据, 将知识、数据与学习融为一 体, 形成基于知识驱动的决策算法处理宏观动作, 基 于数据挖掘的软决策算法处理微观动作, 通过自对 抗复盘数据进行迭代学习, 提升决策模型能力. 基于 这一决策框架, 编程实现了一个能够自主决策的兵 棋 AI. 该兵棋 AI 先后多次参加全国性战术级兵棋比 赛, 在 2021“庙算杯”人机对抗测试赛 1 中取得总成 绩第 3 名, 图灵测试第 2 名, 展现了较好的对抗能力 和决策灵活性.

成为VIP会员查看完整内容
94

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
基于知识图谱的仿真想定智能生成方法
专知会员服务
101+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
107+阅读 · 2023年5月9日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
面向智能博弈的决策Transformer方法综述
专知会员服务
184+阅读 · 2023年4月14日
多智能体协同决策方法研究
专知会员服务
122+阅读 · 2022年12月15日
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
面向多智能体博弈对抗的对手建模框架
专知会员服务
153+阅读 · 2022年9月28日
智能博弈综述:游戏AI 对作战推演的启示
专知会员服务
116+阅读 · 2022年8月29日
兵棋推演的智能决策技术与挑战
专知会员服务
209+阅读 · 2022年7月5日
「基于课程学习的深度强化学习」研究综述
面向多智能体博弈对抗的对手建模框架
专知
12+阅读 · 2022年9月28日
兵棋推演的智能决策技术与挑战
专知
24+阅读 · 2022年7月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2009年12月31日
VIP会员
相关VIP内容
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
基于知识图谱的仿真想定智能生成方法
专知会员服务
101+阅读 · 2023年6月4日
战术先验知识启发的多智能体双层强化学习
专知会员服务
107+阅读 · 2023年5月9日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
面向智能博弈的决策Transformer方法综述
专知会员服务
184+阅读 · 2023年4月14日
多智能体协同决策方法研究
专知会员服务
122+阅读 · 2022年12月15日
基于课程学习的深度强化学习研究综述
专知会员服务
57+阅读 · 2022年11月28日
面向多智能体博弈对抗的对手建模框架
专知会员服务
153+阅读 · 2022年9月28日
智能博弈综述:游戏AI 对作战推演的启示
专知会员服务
116+阅读 · 2022年8月29日
兵棋推演的智能决策技术与挑战
专知会员服务
209+阅读 · 2022年7月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员