“深绿” 及 AlphaGo 对指挥与控制智能化的启示

2018 年 12 月 9 日 人工智能学家

来源：《指挥与控制学报》

摘要：随着未来战争日趋复杂、人工智能突飞猛进, 指挥与控制向智能化发展成为大势所趋. 美军的 “深绿” 计划项目虽因各种原因暂停, 但其思路和方法值得借鉴. AlphaGo 在围棋领域战胜人类顶尖水平, 其采用的方法也有一定的参考价值. 简要介绍了二者采用的方法, 并开展了方法适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并对指挥与控制智能化的发展提出了启示和建议。

指挥与控制是一项跨物理域、信息域和认知域的学科, 既包含工程, 也包含艺术.受到信息技术发展的推动和制约, 多年来指挥与控制技术的发展大量集中在信息域和物理域, 在指挥与控制系统工程方面取得了长足的进步, 但在指挥与控制辅助决策方面, 尤其是涉及指挥艺术的认知域, 一直停留在初级阶段. 虽然设计了一些辅助计算模型,但在现代化战争复杂、快速、多变的特性面前, 可信度、实用性远远不能满足实际需要. 美军曾推出 “深绿” 计划, 旨在探索智能化的指挥与控制辅助决策, 但也因战争的复杂性等种种原因未获成功.人工智能技术近年来发展迅猛,尤以深度学习技术为代表, 在语音识别、图像识别、运动感知等领域纷纷取得了突破性的进展.AlphaGo与李世石的一场围棋大战获得了举世瞩目, 最终人工智能以4:1 的结果战胜了人类, 代表其在认知领域再下一城,一时间掀起了热议. 紧接着, AlphaGo宣称要挑战星际争霸, 更是将人工智能推向了神坛. 围棋和星际争霸这两类游戏,和军事指挥与控制有着紧密的联系, 尤其是星际争霸与战争有着很高的相似度. 因此, 很自然的想法, 就是将人工智能技术应用于作战指挥. 随着美军宣称要将人工智能列为 “改变游戏规则” 的颠覆性技术大力发展, 国内外对指挥与控制智能化的呼声也越来越高.相比之下, AlphaGo是智能化技术向军事领域的推进, 而“深绿”则是从军事领域推智能化. 两者虽然一成一败, 都不失为军事指挥与控制智能化发展的里程碑.其中涉及的技术方法,很值得深入研究.本文简要介绍了二者采用的技术方法, 并开展了方法适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并作为抛砖引玉, 对指挥与控制智能化的发展提出了启示和建议.

1 方法简介及适用性分析

1.1 美军 “深绿” 系统

“深绿”计划是美国国防部高级研究计划局DARPA支持的一项面向美国陆军、旅级的指挥与控制领域的研究项目, 是将人工智能引入作战辅助决策的一项尝试探索. 文献对 “深绿” 计划中应用的技术、执行的情况、及其面临的困难和挑战进行了深入探讨.

深绿的核心技术本质上是基于实时态势的动态仿真, 也是 “平行仿真” 的核心要义. 仿真擅长逼真地、量化地模拟复杂多因素综合作用的过程和结果, 而这是很难用传统的数学公式描述出来的. 基于实时态势做仿真, 可以量化地估计未来某一时刻的战场状态,也可以帮助人理解各种量变在不同时间、空间上交叉产生、综合作用之后可能带来的质变, 这种质变代表具有不同意义的战场态势局面. 在复杂战争中, 可能导致不同态势局面的因素众多, 包含各种随机性、偶然性, 一个细微的因素可能改变整个战局的发展. 使用仿真的方法, 可以尽可能地将每一个细节因素的影响都模拟出来, 只要模型足够逼真, 计算平台足以支撑.

然而, 用仿真来预测战场变化的一大缺点, 是无法应对分支太多的情形. 包括敌方战术策略、我方应对策略、环境变化、随机过程等不确定性都会导致分支出现. 而各种不确定性的组合爆炸是 “深绿” 面临的最大难题. 按照深绿的方法, 每种可能的分支都要仿真模拟一遍才行, 那么分支一多, 这种仿真模拟的计算资源和时间成本就十分高昂, 以至于无法实现. 但事实证明, 战争迷雾无处不在, 只有战术层面、短时间内, 不确定性才相对较少. 但很明显, 战术层面、短时间内的预测对指挥员而言非常简单, 用机器预测的意义不大. 此外, 态势与决策的输入输出、数据的决定性、计算机与人协同等问题, 都是 “深绿” 计划面临的难题.

美军于 2011 财年终止 “深绿” 计划的原因是多方面的, 包括技术上存在的风险, 也包括经费、人员等各方面因素. 美军高调宣称终止某项研究计划的背后, 往往在隐秘地持续开展相关研究. “深绿” 计划表面上虽然被叫停, 不排除相关研究仍在继续的可能.

1.2 谷歌 AlphaGo系统

相比于军方自顶向下推进指挥与控制智能化的努力困难重重, AlphaGo 在民用领域取得的突破可谓另辟蹊径, 后来居上.

AlphaGo 所采用的核心技术是深度学习和蒙特卡洛搜索，特别擅于分析博弈层面的问题, 而且已被证明比人类更擅长应对天文数字般的组合不确定性. 其通过训练深度神经网络, 实现对人类直觉思维的模拟, 是在神经网络技术应用中非常有魄力的一种创新. 神经网络虽然和人类大脑中的神经元系统相差甚远, 却被实践证明可以模拟非常复杂的映射关系. 而人类的直觉就是一种说不清、道不明的潜在映射关系. 机器通过千万级别的训练样本, 学会了人类的这种直觉, 可以直接生成当前局势的 “应对良策”(实际上是人类高手在同类局势下使用较多的棋招), 而不是对每种可能性都推一遍, 同时生成对最终输赢结果的价值估计 (实际上是人类类似棋局最终输赢结果的统计分布), 并在有限范围内开展推演求证 (由于缩小了范围, 屏蔽了细节, 推演效率高). 因此, 使用 AlphaGo 的方法, 可以帮助人们高效演算作战中的博弈问题, 从而寻求战法策略的优化.

然而, AlphaGo直接用于作战设计和分析是有问题的, 主要是屏蔽了太多细节导致的失真。和围棋不同, 战场上任何一招一策, 能达到何种效果, 都是和具体对象、环境相关的. 棋盘上看似简单的一步棋, 实际效果可能未必落在想要落在的那个格子里. 此外, 使用 AlphaGo方法, 还面临着战场抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等一系列问题, 下文中会详细阐述. 换言之, 单靠棋盘上的博弈验证战法策略的有效性, 有 “纸上谈兵” 之嫌, 具有一定的意义, 但实用性不强.

2 应用机理及能力分析

2.1 应用机理

“深绿”和 AlphaGo所采用的两种方法, 既可以分别应用在指挥与控制中, 也可以结合起来应用, 取决于实际需求.

1) “深绿”—— 战术级仿真推演

从美军 “深绿” 系统的设计初衷和其应用效果来看, 其更适合战术层级的仿真推演. 一方面, 战术层级的实体行为模型较易建立, 武器平台的运用规则相对简单、作用效果相对容易量化评估. 另一方面, 战术层级的不确定性相对较小, 因为时间相对较短、规模相对较小、流程相对固定. 再一方面, 战术层级的分析对于精确量化的要求更高, 武器平台的控制、打击效果的评估等都需要精确量化的数据支撑. 在战术级运用仿真推演, 可以充分发挥机器精确的计算能力.

2) AlphaGo—— 战略、战役级博弈推理

从 AlphaGo 定位于棋类游戏来看, 其更适合战略、战役层级的博弈推理. 棋招类似于战法, 走一步棋类似于指挥员下定一步作战行动的决心. 通过 AlphaGo 扮演 “蓝军” 指挥员, 与扮演 “红军” 的人类指挥员互相拆招喂招, 可以帮助指挥员定性地分析各种战法相互作用、多个回合之后的可能结果. 战争是不确定性的王国, AlphaGo 擅长的就是从大量不确定性中寻求可行解. 另外, AlphaGo 采用的自我博弈方法, 还能帮助指挥员从庞大的解空间中自动寻找最有可能取胜的战法组合, 帮助实现战法策略的优化.

3) 两者结合 —— 一体化作战设计分析

然而, AlphaGo 真正要用在指挥与控制领域, 实现从棋类游戏到战争推演的转化, 就要和 “深绿” 的方法相结合, 互相取长补短.

结合应用的机理如图 1 所示, 指挥员和机器在棋盘上进行对弈, 通过仿真环境实现和真实战场的对接. 首先, 指挥员在棋盘上设计战法, 相当于走出一步棋,“深绿” 系统使用草图到计划的功能, 将该战法细化成具体可操作的行动方案, 并基于实时接入的战场数据, 通过仿真模拟出方案执行后的效果, 将该效果抽象之后呈现在棋盘上, 即通过仿真估计出棋子可能落在哪一格. 接着, AlphaGo 用其深度学习得到的策略网络, 生成敌方的战法, “深绿” 系统将其细化成方案, 仿真出效果并抽象到棋盘上, 从而完成双方一轮走棋. AlphaGo 再用估值网络估计一下当前盘面的胜负概率, 并用蒙特卡洛搜索进行推演求证, 供指挥员分析参考. 按照这种方法, 战略、战役、战术层级得到了兼顾, 两种方法形成了优势互补, AlphaGo 解决了不确定性的问题, “深绿” 实现了 “纸上谈兵” 和实际战场的结合, 因此, 可用于一体化的作战设计分析.

2.2 应用能力

在指挥与控制领域应用 “深绿” 和 AlphaGo的方法, 可以实现很多前所未有的功能, 支撑战前推演、实时预测、临机决策、精准控制、战后评估等一系列指挥与控制业务.

1) 博弈式筹划推演

在战前, 可以将 AlphaGo和 “深绿” 结合起来, 实现博弈式的筹划推演. 一种是人 - 机博弈: 人类指挥员设计我方战法, AlphaGo 设计敌方战法, “深绿” 负责行动方案细化生成、行动效果模拟抽象, AlphaGo 估计胜负概率, 人类指挥员可以选择继续往下走, 或者悔棋重新设计战法, 重新推演, 以此反复修改优化方案. 另一种是机 - 机博弈: AlphaGo 用自我博弈的方法, 同时设计敌、我战法, 通过随机选择战法的方式, 把各种可能的战法组合都推演一遍, 并自动对推演结果进行批处理分析、比对, 从而帮助人类指挥员寻找较为理想的方案. 由于人类指挥员在设计方案时往往具有思维定势, 容易忽略掉一些可行解, 而器采用有限范围内的解空间搜索方式, 或许能搜出一些人想不到的方案, 其中不乏 “奇招、妙招”.

2) 实时态势预测

在战中, 可以将 AlphaGo 和 “深绿” 结合起来, 实现战场态势的实时预测. 其中, AlphaGo 主要负责敌方的出招预测, 即预测敌方在当前形势下, 下一步可能采用的战法. 但按其方法原理, 其只能预测当前局势下令对手赢面最大的一招, 而无法预测对手可能采用的 “昏招” 或 “险招”. “深绿” 主要负责战术层面的战场状态预测, 一是按敌我当前战法打下去, 量化估计下一时刻可能的战场状态, 二是考虑环境、对抗中的少量随机性, 或敌我战法的少量可选项, 归纳出短时间内未来态势可能出现的几种局面.

3) 临机快速决策

AlphaGo 的一大特点, 是克服大量未知不确定性的组合爆炸, 模拟人类的棋感直觉, 根据当前盘面形势快速拆招解招. 这种能力如果用在临机指挥中, 可以快速生成决策建议, 尤其是在突遭变化、敌方后招难以捉摸, 而形势又特别紧急的情况下, 可以避免人类指挥员容易出现的犹豫不决现象, 提升决策效率. 更重要的是, AlphaGo 在训练时使用的样本很多, 可以模拟很多高水平指挥员的共性直觉, 理论上其生成的建议有可能会优于单个人类指挥员. 当然, 以目前人工智能的水平, 支持战前筹划还行, 支持战中指挥有点不太现实, 但如果 AlphaGo攻克了星际争霸之类的实时竞技类游戏, 那就完全不同了.

4) 前馈式精准控制

深绿基于仿真的实时量化预测能力, 可以在行动执行过程中, 模拟战场多因素综合作用的结果, 超实时预测行动执行的效果, 并根据实时数据动态修正预测结果. 指挥员可以实时把握行动预计效果同预期之间的偏差, 提前对行动进行调整. 过去都是根据当前行动执行的结果, 来调整下一步的行动, 是在偏差已经产生情况下的调控. 而通过超前预测引入的反馈, 是在偏差尚未产生之前的调控, 类似控制论中的前馈式控制, 可以帮助指挥员防患于未然. 在此基础上, 如果仿真模型的粒度越细, 则效果预测就越精确, 控制的精准度就越高.

5) 战后评估训练

一方面, 战前的博弈式推演方法也可以用在战后, 对各种战法进行博弈演练, 发现战法存在的问题, 从而进行优化. 另一方面, 利用 AlphaGo中的深度学习技术, 还可以实现各种作战模型的训练优化. 很多作战模型因为影响因素太多、作用机理复杂, 传统数学模型难以精确拟合. 例如部队实战能力, 受敌我兵力配属、武器配备、使用战法、训练水平、士气、相对位置、战场环境等诸多因素影响, 一直以来都很难建模. 而指挥员和部队一起摸爬滚打多年, 对其实战能力的估计是比较准确的, 这种经验性的直觉判断, 类似 AlphaGo 对盘面胜负概率的估计. 神经网络具备超强的分类/拟合性能, 如果给定历史案例中各种情况下的战况数据, 用深度学习方式或许能拟合出一个较为精确的模型出来.

3 技术应用面临的挑战

“深绿” 计划面临的挑战如前所述, 包括战争的复杂不确定性、模型的精确性、计算资源的占用性等. AlphaGo的方法虽然在围棋领域取得了杰出的成就, 并且具有一定的通用性, 但真正应用在作战指挥与控制领域, 还面临许多挑战.

1) 战场抽象建模

棋盘上, 车无轮、马无缰, 一切都是简化过的. 而现实战争太复杂, 要考虑的细节因素太多, 只有抽象到棋盘层面, 才有可能分析战法博弈. 但如何抽象, 才能做到既简化了繁冗的细节, 又保留了博弈的本质, 是一个值得研究的问题. 例如, 战场态势决不仅仅是兵力的棋布, 各种相互关系、能势大小、趋势方向都应在棋盘上反映出来；调兵遣将也决不仅仅是棋子的位置挪移, 各种战法战术策略、武器使用方式都应在棋盘上可选. 其实这是兵棋要考虑的问题, 但现在的兵棋能否做到, 还有待验证.

2) 非轮次博弈

现代化战争不像古代的决斗, 不是你走一步我走一步的模式, 而是你走一步, 我可能走两步甚至更多. 战争也不是你走一子我走一子, 而是多个子同时在走. 像星际争霸之类的游戏是很接近战争, 但 AlphaGo 能否攻克还是未知数, 很可能不会采用和围棋一样的方法. 战争是连续演进的, 一种方式是采用某种策略将其离散化, 分成许多时间片段, 允许每个片段结束时双方各做一次决策 (保持不变也是一种决策), 然后套用围棋的方法, 这种方法带来的问题就是时间片划分多细合适, 太细了计算量大, 太粗了容易失真. 除此之外, 就需要创新提出完全不同于AlphaGo的方法来解决.

3) 非单一目标

棋盘对弈, 最终的目标就是输赢. 而实际战争往往没有那么简单, 很多情况下没有明确的输赢之分, 而是要达到某种期望的状态, 比如夺取制空权之类. 而且实际战争中除了输赢, 考评一个作战方案还有很多其它指标, 比如预期效能的达标性、损失代价的可接受性、资源占用条件的满足性、应对各种变化的灵活性等. 换言之, 实际战争的目标是非单一的, 是一套价值目标体系. 如何在棋盘对弈中模拟这样的价值目标体系, 而神经网络又如何来学习这种价值目标体系下的人类直觉, 都是值得研究的问题.

4) 不完全信息

棋盘上, 黑白分布一目了然. 而现实战争中, 信息有缺有失、有真有假. 当信息缺失时, 就好像一个人在下棋, 走了好几步之后, 才知道对手走到哪儿, 也不知道对手是怎么走到那里的, 那么在这几步 “盲棋” 中, 该如何做决策？另一方面, 当信息有假时, 就好像对手表面上走了一步棋, 实际上走的是另一步棋, 有一个看得见的棋盘和一个看不见的棋盘, 如何鉴别看得见的这步棋, 又如何估计看不见的那步棋？星际争霸游戏中设置了一部分信息缺失的元素, 例如未经玩家探索过的地区会蒙上一层黑幕. AlphaGo能否通过这样的考验, 让我们试目以待.

5) 不完备规则

棋盘上, 一招一式都有规定, 规则是明确的, 对双方是一致的. 而现实战争中, 招无定式、兵无定法, 人可以随时创造出新战法. 朱可夫在与关东军作战中, 用滑轮绳索将坦克拉上陡坡, 实现了出奇制胜. 而现代化战争中, 前方兵力看似不多, 后方一枚远程导弹就有可能瞬间改变战局, 美军号称一小时内能打到全球任何一处, 小小棋盘又哪能覆盖无边界的战场？即便循规蹈矩地照教科书上的战法, 用在不同的实际情况下也是需要调整的, 创新是无处不在的. 试想两人对弈中, 如果对手不断地违规走棋, 即便是 “围棋之神” 也难以取胜. 当然, 实际战争中对手的规则也不是完全不清楚, 是可以大致估计出来的, 很多情况下对手别无选择, 这里面有个度的问题.

6) 缺训练样本

棋局盘面可以达到千万级的规模, 现实战争不太可能. 即便算上演习训练, 也离这个规模相去甚远. AlphaGo 通过自我博弈无中生有地制造了大量样本, 这对于战争能否做到是个问题. 棋盘上自我博弈较为简单, 用于作战还要解决从战法到行动方案的自动生成问题. 此外, 人造的样本能不能用也是个问题, 深度学习如果学到的是人造的规律, 就失去了意义. 另一方面, 人类自身在学习时并不需要太多样本, 打过几次仗的兵就算老兵了, 一生身经数十战就是 “战神” 了, 人类靠的不仅仅是经验积累, 每积累一次经验都会带有思考, 让理性思维和感性认识相结合, 才能实现快速学习. 如何让机器像人一样去学习作战, 是很值得研究的问题.

上述挑战问题, 每一个目前都没有很好的解决办法, 但笔者相信随着技术的发展, 它们终有一天会被解决. 正如 AlphaGo 赢棋之前, 很多人预测这一天还要很多年才能到来. 我们处在技术飞速发展的时代, 每一天都在见证奇迹的出现.

4 指挥与控制智能化发展着力点

分析认为, 不论 AlphaGo还是 “深绿”, 其迈向智能化的基础都是知识. AlphaGo的知识是16万人类高手的围棋棋谱, “深绿” 的知识是各种仿真实体的交战模型. 没有这些知识做基础, 它们是达不到现在的智能化程度的. 因此, 知识工程是智能化的基石, 解决智能化的关键问题, 还应从知识表示、知识学习、知识推理等基础问题入手, 加强技术方法研究.

1) 加强指挥员认知域的知识表示方法研究

智能化的第一步, 是让机器理解战争, 理解战场上发生的事, 以及指挥员心中考虑的问题. 分析战争问题, 很重要的一点就是抽象. 要分析战法博弈层面的问题, 首先要分析一下指挥员心中的棋盘是什么样的, 指挥员是如何分析任务目标、理解战场局势、设计作战思路的、评价作战效果的, 指挥员大脑里抽象、模糊、不确定的知识产物具有哪些要素特征. 然后探寻如何将这些要素特征形式化描述, 以便机器理解.

2) 加强复杂战争规律的知识学习方法研究

战争规律不断在变化, 而且复杂性也在不断提升, 人类经验总结是一方面, 机器学习的方法可以帮助人类提升对复杂战争规律的认识. 运用深度学习方法, 首先要解决训练样本的问题, 可用的实际战争和演习数据有限, 一种可行的途径是通过仿真模拟的作战过程积累数据. 因此, 要大力建设作战仿真模拟环境, 类似星际争霸之类的战争游戏, 还应当越做越精细, 更加逼真的模拟真实作战, 不仅仅是在画面效果上, 还要在作战流程、交战对抗、实体行为决策、战场环境上尽量贴近真实, 让更多一线的指挥人员成为游戏的玩家, 同时也让将战争游戏打造成为检验战法战术的试金石和试验田. 在积累了大量指挥军官的游戏数据之后, 深度学习才能派上用场.

3) 加强面向博弈对抗的知识推理方法研究

如前所述, 战争博弈对抗具有非轮次博弈、非单一目标、不完全信息、不完备规则等特征, 传统的知识推理方法存在适用性问题. 因此, 在充分吸收 AlphaGo的推理方法的同时, 还应结合逻辑推理、不确定推理、基于案例的推理、基于仿真的模拟推演,以及传统的数学计算等多种手段, 或者创造新的推理方法. 另一方面, 人工智能目前还不能完全替代人类的智慧, 但两种智能可以结合起来解决问题. 如何优化人和机器的智能分工与协作效率, 实现智能输出的最大化, 也是值得研究的问题.

5 启示及建议

本文对美军 “深绿” 计划及 AlphaGo进行了简要的介绍, 分析了其各自的优缺点, 提出了将二者的核心技术方法结合起来, 应用于战前推演、实时预测、临机决策、精准控制、战后评估等指挥与控制业务的方法.同时, 也从战争抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等方面分析了技术应用面临的挑战, 指出发展指挥与控制智能化应以知识表示、学习、推理等基础问题作为着力点. 知识是智能化的核心, 而数据是根基, 所谓 “巧妇难为无米之炊”, 是当前指挥与控制智能化面临的困境, 因此, 要大力推进知识工程建设, 积累数据是关键。

人工智能技术虽然不能说已经成熟, 但足以和目前的指挥与控制系统拉开足够差距, 可以发展的空间很大, 很多传统方法解决不了的问题有可能通过智能化技术解决。然而，发展智能化指挥与控制要一步步来，不能急功近利，“深绿” 就是前车之鉴, 把握不好, 一次重大失利, 就可能将其带入低谷. 深度学习技术只是人工智能的一种方法, 不能解决所有问题, 其他人工智能方法也有待进一步发展, 关键在于如何结合领域特征高效转化应用. 最后, 应当将人工智能当作指挥员的助手, 用于辅助决策, 但最终做决定的还应当是人类, 全自主化战争目前来看还太遥远。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”