兵棋推演的智能决策技术与挑战

2022 年 7 月 5 日 专知

近年来, 以人机对抗为途径的智能决策技术取得了飞速发展, 人工智能技术AlphaGo、AlphaStar等分别在围棋、星际争霸等游戏环境中战胜了顶尖人类选手. 兵棋推演, 作为一种人机对抗策略验证环境, 由于其非对称环境决策、更接近真实环境的随机性与高风险决策等特点受到智能决策技术研究者的广泛关注. 本文将梳理兵棋推演与目前主流人机对抗环境如围棋、德扑、星际争霸等对抗环境的区别, 阐述兵棋推演智能决策技术的发展现状, 并分析当前主流技术的局限与瓶颈, 对兵棋推演中的智能决策技术研究进行了思考, 期望能对兵棋推演相关研究人员的智能决策技术研究带来启发.

尹奇跃, 赵美静, 倪晚成, 张俊格, 黄凯奇, 兵棋推演的智能决策技术与挑战. 自动化学报, 2022, 48(x): xx-xx

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

人机对抗, 作为人工智能技术的试金石, 近年来获得了举世瞩目的进展. 随着 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能体分别在国际象棋、围棋、二人无限注德州扑克以及星际争霸中战胜顶尖职业人类选手, 其背后的智能决策技术获得了广泛的关注, 也代表了智能决策技术在中等复杂度完美信息博弈、高复杂度完美信息博弈再到高复杂度不完美信息博弈中的技术突破.

国际象棋、围棋代表了完美信息博弈, 其状态空间复杂度由, 后者更是被誉为人工智能技术的阿波罗. 相比于上述两种博弈环境, 二人无限注德州扑克, 尽管状态空间复杂度仅有 , 但其为不完美信息博弈, 相比于国际象棋与围棋信息集大小仅为 1, 其信息集平均大小达到 . 而星际争霸, 作为高复杂度不完美信息博弈的代表, 因其相比于上述游戏的即时制、长时决策等特性[4, 5] , 对智能决策技术提出了更高的要求. 星际争霸突破之后, 研究人员迫切需要新的人机对抗环境实现智能技术的前沿探索. 兵棋推演是一款经典策略游戏[6−8] , 也被称为战争游戏, 作为一种人机对抗策略验证环境, 由于其具有不对称环境决策、更接近真实环境的随机性与高风险决策等特点, 受到智能决策技术研究者的广泛关注. 近些年来, 研究者投入了大量的精力进行兵棋推演智能体研发以及兵棋推演子问题求解, 试图解决兵棋推演的人机对抗挑战[9−14] .

兵棋推演, 一直以来都是战争研究和训练的手段, 分为早期的手工兵棋与 20 世纪 80 年代后期普及的计算机兵棋[15−17] . 胡晓峰等人[6] 全面综述了兵棋推演的基本要素 (参演人员、兵棋系统模拟的战场环境和作战部队、导演部及导调机构), 指出 “兵棋推演的难点在于模拟人的智能行为”, 进而得出 “兵棋推演需要突破作战态势智能认知瓶颈”, 最后给出了如何实现态势理解与自主决策可能的路径. 和目前兵棋推演关注的重点不同, 本文关注的是兵棋推演中的智能体研究, 针对通用性的智能决策技术与挑战展开. 另外, 需要阐明的是, 本文中的兵棋推演, 如非特别阐述, 在不引起歧义的前提下统一指双方计算机兵棋推演 (红蓝两方). 本文内容组织如下: 第二章将梳理兵棋推演与目前主流人机对抗环境如星际争霸等的区别, 以及为什么其潜在是人机对抗的下一个挑战; 第三章将介绍兵棋推演智能技术的研究现状; 之后在第四章阐述当前主流技术的瓶颈; 第五章对兵棋推演的智能决策技术进行展望与思考, 希望启发新的研究方向; 最后对全文进行总结.

1 兵棋智能决策问题的挑战

本章首先简要介绍兵棋推演问题以及与手工兵棋的比较. 在此基础上, 以人机对抗发展脉络为主线, 以兵棋推演中的智能体研究为核心, 介绍兵棋推演与其他主流策略游戏的通用挑战, 之后重点阐述兵棋推演的独特挑战. 前者为实现兵棋推演人机对抗的成功提供了技术基础, 后者则对当下人机对抗智能体决策技术提出了新的挑战.

表1 对智能决策技术带来挑战的代表性因素

2 兵棋智能决策技术研究现状

为应对兵棋推演的挑战性问题, 研究者提出了多种智能体研发与评测方法. 与围棋、星际争霸等主流游戏人机对抗智能体研发脉络类似 (如星际争霸从早期知识规则为主, 中期以数据学习为主, 后期以联合知识与强化学习完成突破), 兵棋推演也经历了以知识驱动为主、以数据驱动为主以及以知识与数据混合驱动的研发历程. 兵棋的评测技术包含了智能体的定量与定性分析方法. 在本节中, 将重点阐述兵棋智能体研发的技术与框架, 同时对智能体的评估评测进行简述.

当前智能体的研发技术与框架主要包含三类, 即知识驱动、数据驱动以及知识与数据混合驱动的兵棋推演智能体, 本节将分别阐述各个技术框架的研究进展.

3. 兵棋推演智能体评估

正确评估智能体的策略对于智能体的能力迭代具有至关重要的作用。研究者提出了一系列算法（如ELO、多维ELO等）实现智能体能力的准确刻画，但仍面临复杂非传递性策略的综合评估、协同智能体中单个智能体的能力评估、定性评估标准体系化等问题带来的挑战。近些年来，上述挑战促进了智能体评估开放平台的建设，例如，中科院自动化所开放了“图灵网”人机对抗智能门户网站（http://turingai.ia.ac.cn/），支持智能体机机对抗、人机对抗、人机混合对抗下多种指标评估评测（如图4）。

4. 兵棋智能决策技术展望

博弈理论，作为研究多个利己个体之间的策略性交互而发展的数学理论，有望为兵棋推演人机对抗突破提供理论支撑，但是面临着如何求解以及保证大规模博弈的近似纳什均衡解的挑战。大模型，近些年来在自然语言处理领域获得了突飞猛进的发展，兵棋推演的大模型训练有望实现类似的零样本或小样本迁移，但是面临着如何进行优化目标设计、多智能体训练以及不同规模任务训练的挑战。问题约简，作为一种引导技术发展的有效手段，本文设计了“排兵布阵”、“算子异步协同对抗”等问题，以牵引算法研究，进而反哺解决兵棋推演人机对抗挑战。