【人工智能】有关军事混合智能的几点再再思考、深绿” 及 AlphaGo 对指挥与控制智能化的启示

2018 年 12 月 11 日 产业智能官

0引言

随着深度学习、强化学习等新一代人工智能技术的发展，其在计算机视觉、语音识别、自然语言处理、生物医疗领域及游戏博弈等方面取得很大的突破，人工智能在军事领域应用也愈加广泛，催生了军事智能的概念。美国《2019财年国防授权法案》将人工智能定义为:在没有足够的人类监督的情况下，能够在变化的、不可预测的环境下“理性地行动”，或能够在经验中学习，能够利用数据提升性能的所有系统。当前世界各军事强国都将人工智能作为未来军事中“改变游戏规则”的颠覆性技术，纷纷加快推进智能化作战装备研究。就在2018年6月，美国国防部提出建立“联合人工智能中心”，以此作为专职负责军队智能化建设的机构，开始统筹规划建设智能化军事体系。军事智能的不断发展，智能化装备的大量使用，不但将与传统的战争形态从技术上产生巨大的不同，在军事指挥与控制的理论上也将对传统作战制胜机理产生不同程度的颠覆。因此，当前加快军事智能化发展，不仅要继续智能化武器装备的研究，还要提高对智能化战争条件下作战指挥控制理论的研究。军事智能研究是一个领域，不是一个学科，我们必须要用不同的方法论，从不同的角度来研究军事智能，方法论、角度越多，军事智能研究就会做得越好。美国“防务一号”网站2018年10月11日刊文称，美国军方高级情报官员越来越担心中国在人工智能等“提升人类的效率”方面的研究。美国国防情报局局长Robert Ashley在该周举行的美国陆军协会年度会议上表示，“人机融合”是颠覆性技术的一个“关键领域”，将会影响美国的国家安全，随后美国新安全研究中心(Center for a New American Security)技术与国家安全项目研究员Elsa Kania在2018年度“疯狂科学家”（Mad Scientist）大会上发表演讲提到要提防中国军方的“人机融合”研究。另外，为了提高人们对DARPA在人工智能研发工作上的认识，DARPA将于2019年3月6日至7日在弗吉尼亚州亚历山大市举办最新人工智能学术讨论会（AIC）。本次活动旨在将国防部研究界和国防利益相关者聚集在一起，以了解DARPA在当前和新兴人工智能计划上的更多信息，并探求如何将如此多的技术应用在他们的诸多任务上。人工智能学术讨论会将为AI社区创建一个环境，以便参与和开创新的合作，帮助DARPA的成果应用在国家安全中那些具有挑战性的相关领域上。

无论是纵观古今，还是展望未来，各种军事作战装备或系统始终都是一个人-机-环境系统。无论是现在还是未来，无人机、无人车、无人艇等各种无人装备都不可能是完全无人的，只不过是人由前置转为后置，由体力变为智慧，由具体执行变为指挥控制，其中涉及到复杂的人机交互及其相互关系的问题，单纯的人工智能与人类智能都不能使其发挥最大效能，人机智能的混合是其重要的发展方向。

准确地说，军事智能不仅包含自然科学和工程技术，还涉及许多社会科学的领域，如人文、哲学、宗教乃至艺术等等，这从世界上最早的兵书之一——《孙子兵法》的英文名字可见一斑：The Art of War，好的军事指挥有时候不仅是技术还是艺术。军事智能是人工智能之冠上的明珠，相对传统的民用人工智能，其对抗性博弈性更强，其智能不仅仅是武器装备的智能更是指挥控制系统的智能，是体系的智能化。未来军事智能的最优存在形态应该不是个体性的（比如异常先进的单平台武器），而是系统性的（网络性的），更有可能是横跨各人机环境系统体系性的（如跨不同网络的陆海空天网体系），并且该体系还会不断自主升级，然而，作为世界人工智能和军事技术领先者-美国仍对非合作博弈条件下的多域人机环境智能系统融合也没有太多好办法，还在不断地尝试中，美军2016年发布的《自主性》研究报告中指出，AI可用于对部队和指挥官进行告警及提供行动方案的建议，但还远远没有达到能够代替人类制定决策的程度。这个观点是比较客观、务实的、有效。看待军事智能化发展的这个难题，不同视角会得出不同的结论。笔者根据在军事人机融合智能工程应用创新领域的研究经验，从新技术落地发展的角度，认为当前发展军事人机融合智能面临着三大瓶颈问题：缺大小实在样本数据、缺算法人因验证手段、缺复合专业融合。三大瓶颈问题，说到底是缺乏战争博弈实践——人都说不清楚，指望机器说清楚，在短期内是很难做到的，所以人机融合的研究确实必要：人解决“做正确的事”，机解决的“正确地做事”。人机融合智能的本质就是把事实与价值统一起来：人负责价值，而机处理事实。人机融合智能可以破解“休谟之问”：Being与Should、自然与自觉的一致性！曾有人说，在计算开始的地方，理解便终结了。而人机结合在一起的深度态势感知就可以实现可理解的计算 + 算计。简单地说，深度态势感知就是对态势感知的认知，它是在Mica Endsley的态势感知（即在一定的时间和空间内对环境中的各组成成分的感知、理解，进而预知这些成分的随后变化状况。）基础上，混合人、机智能。既包括了人的意向性，也融合了机的形式化。既涉及事物的大数据能指又关联它们之间的小/无数据所指，既能够理解事物原本之意，也能够通情达理、明白弦外之音。

如同人工智能当前在民用领域没有共识的定义一样，军事智能除了应用领域比较明确之外，现在也没有共同一致的概念，将来可能也很难产生一致认同的概念，因为人本身就是一个极其不容易归纳概括的名词，凡是一涉及到人的行为，尤其是智能行为，更是变化莫测、出其不意。德国军事家克劳塞维茨把战争中多方的智能博弈看作不透明的理论——The theory of war，其实也谈到了军事智能的不确定性和模糊性，甚至是超出了人类认知之外的感叹。一般而言，自动化系统和自主系统之间的区别在于：自动化系统中，机器通过一个明确的指令（if-then–else）、基于规则的结构进行推理，并以确定的方式进行推理，这意味着对于每个输入，系统的输出总是相同的；而自主系统则是一个在给定一组输入条件下进行概率推理的系统，这意味着它可以在给定传感器数据输入条件下，对最佳可能动作过程进行猜测。与自动化系统不同，当给定相同的输入时，自主系统不一定每次都产生相同的行为输出，而是会产生一系列行为。美国国会研究中心在2018年4月发布的《人工智能与国家安全》报告中，与自动化系统、自助系统、机器人进行了明确定义：自动化系统是指系统功能是自动的、没有（或仅有有限的）人类参与的系统。这类系统通常运用于结构化的、不变的环境，通过简单的脚本或规则做出既定响应，从而完成一套特定的、事先已被定义的任务；自主系统是指能够基于自身的态势感知（综合情感、理解、分析）、计划、决策能力，来完成指定任务的特殊系统；机器人是指能够通过直接人工控制、计算机控制或人机共同控制，来执行一组动作的动力机械装置，至少由平台、软件和电源构成。

即使世界再复杂，情境再捉摸不定，也总有蛛丝马迹般的端倪会出现。“第三次抵消战略”自2014年9月由美军提出以来,目前已进入全面实施阶段。美国国防部副部长沃克提出，自主学习、机器辅助人员作战、有人—无人作战编组、网络化半自主武器将是“第三次抵消战略”重点发展的五大关键技术领域。美军在2016—2018财年的国防预算中,持续加大对自主系统、情报数据分析、大数据分析、机器人、自动化及先进传感技术的投资强度。是否能研究出支撑技术应用的算法,提升人工智能、自主技术的水平,将成为决定上述各主要方向技术发展的关键所在。从众多公开信息分析不难看出，当前世界排名第一的美军对军事智能领域的重视程度也很高，其主要着力点两部分：一是机器学习，二是自主系统。机器学习就是形式化的（程序规范性的）代表，描述一个规则的事态；自主系统就是意向性（非形式化、事实经验性的）的特点，描述一个可能的事态。形式化推理就是将命题，逻辑联接符号化，然后规定变形规则，进行公式间的转化变形，就可以用来表达推理。非形式化的推理就是不借助符号，而是直接通过自然需要来进行语句间的变换。一开始这两个部分可能是各自为战，分头突进，但过不了多久，该研究的真实意图就会和未来科技的发展趋势越发一致起来：人机融合智能系统。这也说明了军事智能的可见未来既不是单纯的机器学习，也不是可爱的自主系统，而很可能是结合人机各自优势的融合智能，若凝炼成科学问题，本质上就是要回答认知和计算的关系，以及人类智能和机器的类人智能之间的关系问题。

1 军用智能与深度态势感知

对军事智能而言，无论机器学习还是自主系统，都不外乎是为了精确地感知、正确地推理和准确地预测，这就涉及到了一个大家司空见惯又望之兴叹的军事智能核心概念之一：态势感知。

无论面向军用还是民用，人工智能的本质都不是简单的赋能，而是人类智慧的自我反馈，是他人在不同时空中的概念知识规则概率伦理道德意识在“我”时空情境里的运行，所以常会出现人机融合的不适，不过也很正常：风马牛硬相及的结果。如果非要说，人工智能是赋能，那也是别人以前的可程序化可预测性知识赋予給现在“我”的能力而已。其中的知识一般分为两个层次，顶层由概念的、符号的、离散的或命题性的知识构成；底层的由感觉的、前概念的、亚符号的、连续的或非命题性的知识构成。底层的知识往往涉及到感性，与态势中的“态”有关；而顶层的知识常常涉及到理性，与态势中的“势”有关。

所谓态就是暂时如此的表象，所谓势就是本来如此的真像；从价值论角度看：“态” 即从描述事物的价值状态与价值特征的众多数值中取其任意值；“势”即是从描述事物的价值状态与价值特征的众多数值中取其最大值或极大值。态面临的困难是符号形式化准确表征；势对应的瓶颈为意向性完整的抽象提炼；感遇到的麻烦在主动性选择想象获取；知直面的阻碍于非逻辑局部与全面关系的转换。

图1深度态势感知

态势感知就是通过转换不同的角度思考达到知己知彼的途径，一般是由表及里、由外到内、由下到上、由态到势、由感到知，若能够把其逆过程融入进来，即同时还可以由里及表、由内到外、由上到下、由势到态、由知到感，那么还可以加入“深度”以示强调，称之为深度态势感知。[16]孙子所说的“知”应该就是这种双向甚至更多向的交互换位融合，就是深度态势感知，而他言的“己”和“彼”也不仅仅是指敌我，还应涉及到各种物和装备，以及对环境的考虑。“自己”这个东西是看不见的，撞上一些别的什么，反弹回来，才会了解“自己”。所以，跟很强的东西、可怕的东西、水准很高的东西相碰撞，然后才知道“自己”是什么，这才是自我。优秀的指战员不仅可以及时感态，而且还可以迅速地知势。态倾向形式化，势倾向意向性，态势感知就是形式化衍生出的意向性描述，势态感知就是态势感知的逆向过程——资源管理。例如我国著名的三十六计（围魏救赵、金蝉脱壳等）强调的是势，不是态，算计出的是势，计算出的是态，人是算计，机是计算。人是势——态，机可以态——势。

深度态势感知还意味着把平台、系统、体系各级别态势感知融合在一起形成的，如图1。可控的指控是势态管理，不可靠的是态势感知。人们视觉上一般是先见森林后见树木，先整体后个体，这与先势后态的深度感知是一致的。

态是对事物的一种印象，势是一种对这种印象的观念。科学发现无非就是四类：根据有物之象，找无物之象；根据有物之象，找有物之象；根据无物之象，找有物之象；根据无物之象，找无物之象。与之类似，态势无非是四类：根据有态之势，找无态之势；根据有态之势，找有态之势；根据无态之势，找有态之势；根据无态之势，找无态之势。

在不同的时间，同一个态在同一个人的头脑中形成的“象（势）”，也是不一样的。比如，幼年、青年和老年时期，“爱”字在头脑中形成的“象”就完全不同。在不同的地点，同一个态在同一个人的头脑中形成的“象”也是不一样的。比如，分别在冰窖里和火灶旁，“冷”字会形成不同的“象”。其实早在明朝，大儒王阳明就已经知道这个秘密了，他为了更加全面、准确地认识“死”字，甚至亲自躺进石棺中去体验。由于多义性，某些字同时对应着多个“象”，使得在不同的词（或文）中，该字的意思不同。一态多势，多态一势。实际上，与机器学习不同的是：人的一切学习都能建立一种范围不确定的隐性知识/秩序，并且人的知识迁移还能及时地把已知的知识变成未知的先验继续使用。人的学习与机器学习最大的不同在于复合式常识性学习，而不仅仅是规则化概率性输入。人的常识很复杂，扎堆的物理、心理、生理、伦理、文理……既包括时间空间的拓扑，也包括逻辑非逻辑的拓扑。人机之间互感知、互推理、互理解、互决策、互学习的融合智能才是未来发展的趋势和方向。

态中常常包含专业层级中合乎常规的类型组合，势中往往违背了专业层级中合乎常规的类型组合，美其名曰：常态异势。重要的是，态的表面对称通常会掩盖深层势的不对称，犹如人体显而易见的左右对称掩盖了内部器官的不对称。对“态”而言本质是表征的问题，尤其是静态的表达，侧重于感形（客观存在，being），感己感彼；对“势”而言本质是理解（构建联系）的问题，尤其是动态的会意，侧重于知义（值得、应该，should），知己知彼；由态到态的交互过程，没有智能的出现，得形失意；由态到势的交互过程，亦即数据在流动中生成信息知识（形成价值性）的过程，也就是智能的产生过程，得意忘形。理性很难进行创造，感性很难进行精确。很多态是形不成势的，态形成势的过程就是智能元素成分浮现的过程。

“态”即从描述事物的价值特征的众多参数中取其任意值；“势” 即从描述事物的价值特征的众多参数中取其最大值或极大值。“态”也是先天已存在的事物发展惯性，“势”就是后天未存在的事物发展惯性，感知就是要理解态、势。深度态势感知就是深度理解态、势。状态注定，但势可改变，但很多人理解成了“态势注定，不可改变”。正可谓态由天定，势由己生。另外，军事智能不是情境/场景/态势性的，而是跨情境/场景/态势性的，因而超越感知的觉。深度态势感知系统不是完美的，但是具有重要的参考辅助价值。是指一种基于复杂性博弈和反思的理解之道。但如果这种理解之道能帮助指战员直面未来战场的各种变故与不确定性，更好地与自己所具有的条件、环境打交道，理解它的复杂性，以及自己在其中扮演的角色，从而拥有一个更有利的过程和结果。也可以理解为，深度态势感知并没有传递给你任何新的知识，而是通过将你原本熟知的事物变得陌生，给予你另一种看待事物的方法，而这个角度可以使你距离胜利更近。

态势结构理论在逻辑上把态势刻画为基于结构上的类比匹配的系统，这些结构的构成态来自于不同类型态的聚类或势场。类比匹配出现于态势之间或者描述之间。类比态势具有共同的事实结构；而类比描述具有相同的概念结构。两者区别很大，类比描述不需要为真，只需要共有某些态的规则排列即可。康德可能是第一个区分相似性和类比的人，即类比不表示“两个对象之间的不完全相似性，而是两个并不相似的对象之间关系的完全相似性”，如“人类行动是机械力”。

如果说态势感知是形式化的系统，那么深度态势感知就是加了意向性的形式化系统。我们不苛求为深度态势感知提出完美的字面解释，而是希望能给出其中意向性的逻辑释义，毫无疑问，逻辑释义会丢失意向性中某些最令人兴奋的方面:弦外之音、美学意境、拓扑效果。但是我们关心的是真值，我们对意向性的认知意义和形式化的效果感兴趣。语言、逻辑就是把意向性进行形式化的一种工具。艺术与科学的转换也是如此。文化、变化、转化、异化等等中的“化”很有味道，其中不仅仅有融合的意思，也有改变的痕迹，可以笑称为“化”学。同样，状态、动态中的“态”与趋势、形势、局势中的“势”构成的态势图谱也远比知识图谱更可靠、高效、灵巧。究其因，对人而言，事物的属性是变化的，事物之间的关系也是变化的，对机而言，事物的属性是不变的，并且还被人定义了关系变化的区间值域，如知识图谱。当前态面临的困难是形式化符号的准确表征，势对应的瓶颈为意向性完整抽象提炼，感遇到的麻烦在主动性选择想象获取，知直面的阻碍于非逻辑局部-全面转换关系。

自主系统本质上解决的是不同时空条件下的设计者、使用者之间的一致性问题。对于自主系统而言其实往往就是主动的否定系统（如小孩子成长中最先会说的动词是不（no）、没有、别，这意味着他／她要自主了），而同意常常意味着失去自我（如小孩子若用好的（ok）、同意、太棒了等表达自己观点时，就意味着他/她开始失去自我了）……当然否定自我也只是一种自主，只不过目前机器距此还甚远。如反思产生出的各种隐喻（这是只有人类才具有的特殊能力），隐喻是言外之意，非语法，逻辑是弦内之音，有语法。其实仔细想想，真实的世界不是既有黑也有白吗？所谓的法不就是非少了些吗？规则的形成莫不如此:从小概到大率，然后从合法到非法，隐喻也有法，不过和形式逻辑的法有所不同，隐喻里的法不是语法，是义法、用法，不过时间一长，达成共识，也会变成明喻，变成语法。法就是达成一致了的共识，无法就无天，天就是共识的边界。隐喻不是对态而是对势的指向，是逻辑的逻辑，同时也是大胆假设（想象）下的小心论证（逻辑）。

2 军事智能中的人机混合智能

在军事智能领域中，特别是态势感知处理过程里，态势与感知的形式化、意向性描述分析非常重要，其中形式化就是理性了的意向性，意向性就是感性了的形式化，逻辑就是连接感性与理性、形式化与意向性的桥梁。意向的可及性是其形式化的一个关键，同时，可及性也是可能性向现实性转化的前提条件。就意向性而言，可及性就是（而且几乎总是）态与势之间的限定交互，如同一个事物在不同时空情境（各种态+各样势）中转换的配对和映射、漫射、影射。事实上，从数学的映射到物理的漫射到心理的影射都涉及智能问题，既是逻辑命题与经验命题之间的相互融合过程，也是人类理—解、感—知过程，其中从理到解的一部分变成了人工智能。

目前人工智能最难突破的是非家族相似性的漫射、影射问题，人机合作则有利于该问题的解决：人的意向性是形而上，机的形式化是形而下，人机融合就是两者虚实之间的道器结合。差异会产生变化的动力，人是容易感知到前提条件变化差异的，机器对此应对明显不足，如何使机器产生感知外部前提条件的变化，并依此而随机应变。例如，人类的词语、概念、语义不是固定的，是随着情境的变化而自然变化的，而机器的这种畸变就小的多或基本没有，这也是人机融合的一大障碍，变与不变的对立，如何统一就是关键点。需要强调的是：军事智能中的人机合一，不是简单的“人心+机脑”，而是人（单人、多人、敌我）+机（机器装备+机制管理）+作战环境（真实+虚拟）体系的交互统一，如图2所示。

图2 人机融合智能

军事智能本质就是主客观的融合，既包括有机融合，也包括无机融合，即是主观以一定方式与客观融合，其目的是适应。军事智能研究第一步是解决表征问题，没有表征，何谈联系，即先搞清楚：（你我它）是“谁”之问题，也就是“知己知彼”。对人而言，之所以诸多表征的不确定性不会造成处理、决策的不确定性，其实是人的意向性和目的性在起作用，人本身就是目的而不仅仅是工具。如中西思维方式的差别：由于西方使用拼音文字，导致字符本身的概念消失，因此必须在强逻辑结构中寻求概念，在抽象中展开知识体系，导致西方人进入逻辑强迫症状态。对于人机混合智能而言，人可以把握实在的可能性，机可以运行逻辑的可能性，两者都会产生因果或相关关系，但这些关系具有不同的意义。即也许存在多重的因果或相关关系于人机融合之中，这些关系有显有隐，交融在一起，进而构造生成了复杂性问题。在复杂系统中可能交织在一起形成多个因果或相关关系嵌套纠缠，而我们注意到的与实际的关系经常存在不一致性。赋予机器智能的假设前提基本上都是有限的，这种有限性限制了众多的变化可能性。这些问题的解决不是靠增添新经验而是靠集合整理我们早已知道的东西——常识。人自身的感和觉也有隐协议，这些默会的协议支配着人的态势感知，是先视后识？还是先识后视？抑或两者在何种态势下混合使用，而且每个人的方式都不同——习惯阅历使然。

人之间的交流也有不少协议，而且这些协议在相互交流中切换自如，游刃有余，不知不觉，变化多端，甚至可以在自相矛盾中自圆其说（如自然语言里的多义性），这些协议中有些是隐性的常识规则，有些是个性化的性格习惯，总体上，两者间的边界模糊，弹性十足，约束宽松，条件灵活……而人机之间的交互协议相比之下，显得是那样的单调、机械、数学，界面分明，有板有眼，一丝不苟，缺乏情趣！

表面上，计算智能、感知智能、认知智能风风火火，剥开后仔细一看，全都是形式化计算在支撑，或者说就是规则或统计的计算而已。人，尤其是厉害的人，总是能抓住事物中最本质的东西，认知到最合适的角度进行算计，使得不同现象间的深刻联系浮出水面。机器也应朝着认知这个方向被塑造……人会犯错，机器犯的错误也是人错，我们很多经验与对真理的识得也是从错误中得来的。当机器也会真犯错的时候，颠覆就真的开始了。

人既有确定性的一面也有不确定性的一面，机（机器、机制）同样如此，如何把不确定性的一面转为相对稳定的确定性加以使用，这是人机融合的一个重要问题。人的确定性+机的确定性比较好理解，人的不确定性+机的确定性、人的确定性+机的不确定性、人的不确定性+机的不确定性难度会依次递增，解决好这些问题就是人机融合过程。不确定性是由于表征与推理的可变性造成的。其机制背后都隐藏着两个假设:程序可变性和描述可变性。这两者也是造成期望与实际不一致性判断的原因之一。程序可变性表明对前景和行为推导的差异，而描述可变性是对事物的动态非本质表征。人类的学习不但能建立起一种范围不确定的隐性知识，还能建立起一种范围不确定的隐性秩序/规则。机器学习也许可以建立一定范围的隐性知识、秩序，只不过这种范围比人类学习建立的范围要小的多，而且可解释性更差，容易出现理解盲点。高手和菜鸟面对的情境常常是一样的，只不过高手往往会关注关键和临界处，及时地把态进行优化处理成势，而菜鸟却很难进行类似的态势转换，进而造成态的固化不前。

无维的数据信息衍生出无不为的智能，有维的知识（图谱）衍生出的只是有为的人工智能。孟子说，独乐乐不如众乐乐。幸福越与人共享，它的价值越增加。如果你把快乐告诉一个朋友，你将得到两个快乐。其实，对于军事智能而言，亦是如此，三个臭皮匠相互分享数据信息，智能的融合价值就会越增加。在比较早的时候，惠勒就曾说过“信息即物质（It from Bit）”，信息既是特殊物质也是特殊能量，是虚/暗物质或虚/暗能量，犹如实数与虚数的关系。如果你把知识告诉一个伙伴，你也将在知识的流动中得到更多的知识。就像你在跟同学讲清楚一道难题过程中，常常会得到许多自己独自思考时没有想到的东西一样。数据孤立静止时没有多少价值，一旦流动起来就会形成有价值的信息和知识，流动的数量越大速度越快方向越明确融合越充分，智能化的成分越多，智能程度也就越大，获得胜利的可能性也就越大。

在天时、地利、人和三者关系的研究中，孔子把重点放在人和研究上，对于人和如果分而言之，可以理解为行为与思想上的和谐，探讨人的“主观能动性”，认识规律，利用规律，也就是这样才有了后来的儒家思想。智能出现的前提是：关系的产生。西哲中“我是谁”中的“我”就是关系。意识本身就是“关”加“系”。对于关系和属性而言，关系更为重要，它不但可以使你关注个体的特点，而且还可以让你在相互作用中实现对个体及其它群体的特征理解，知识就是一种或多种角度对事物关系的描述（但并没有穷尽所有的角度）。关系可以是属性级的、还可以是系统级的甚至是多系统体系级的，各级之间可以跨越，如有些系统关系可以不考虑属性的影响。

知识就是用理性区别事物，另外，由于知识忽略了用感性区别事物，所以知识图谱只是局部的世界反应。“秩序是生命的一半”。——德国谚语，生命的另一半就是非秩序。抽象符号间的联系不能产生知识和意义，形式符号系统的语义解释和知识建构如何可以内在于系统（类似于人类内在于我），应该是未来人工智能研究的核心问题。抽象符号间的联系本身是人赋予的知识和意义，“机器的自我”还很难处理这种关系。研究清楚人脑解构也解决不了智能问题，没有交互就不会产生关系，没有相互联系就不会有智能出现。

另一方面，机器是基于大量的正确样本进行训练的，而人类则是基于少量的正确或错误样本进行学习的。另外，机器学习的结果易产生局部最优（也许这也是数学的不足，如蚁群算法），人易把握整体最优。机器学习（形式化）调参很难，人类（使用意向性）相对比较自如。有的人打麻将，打五元一盘的，一天可以赢一千多元，而打五十元一盘的，一天只能赢几百元，有时还输钱。这说明人与机的博弈机制相当不同。

解决军事智能中人机融合问题首先要打破各种认知惯性，突破传统的时空关系。把感知图谱、知识图谱、态势图谱融合在一起思考。对人而言，机就是延伸自我的一种工具，同时也是认知自我的一种手段，通过机的优点来了解自己的缺点，通过机的缺点来明了自己的优点，然后进行相应的补偿或加强。人机融合还不是一见钟情，这是因为缺乏双向性的感知与觉察。当前更多是主从相声似的人机交互，尽管还并不那么尽人意，捧逗还存在失调失配，但未来仍值得期待：毕竟人在发明机器的同时也在发现着自己。

3.展望

计算的确可以让机器承担很多操作性的任务，但执行操作并不等同于替代执行操作的人，各种无人装备、无人系统并不是完全无人，未来战场上的趋势可能是装备无人、平台无人但是系统有人，前线无人但是后方有人，人与机可能在物理上分离但是在整个系统中产生更深层次的融合。人作为自然实体所进行的操作，与机器通过计算而实现的操作相比，有一个至关重要的区别，就是约翰·塞尔所强调的“意向性”维度。机器的操作不是意向性的活动，因为它不能解释自己的操作；而人的行动则是意向性的，是人所具备的概念能力的体现，在操作的同时也在进行着自我解释的活动。智慧总是关联到决定人们如何理解事实的那些价值目标上。不论是军事智能还是民用智能，都有一个反思内在价值追求的向度，这只能由人的意向性自我解释来实现，而不可能由非人来实现。战争是人与装备的结合，再好的装备也需要人来操作。如2018年俄罗斯在制定人工智能武器方面的立场，突出体现在其关于致命自治武器系统的官方立场文件中，它要求“人在决策循环中”，但不赞同限制国家建立和测试新技术的主权的国际制度的概念。因此俄罗斯国防部门采用以结果为导向，前瞻性的方法来开发人工智能。

总的来看，军事智能将会从思想、技术和应用模式上对现代和未来军事作战产生全面影响。目前已在三个方面初见端倪：一是智力会超越体力、信息的有效协同成为决定战争胜负的首要因素；二是无形的（不战）监控取代残酷的（激烈）摧毁成为征服对手的首选途径；三是在体系作战中,人机融合产生出的集智作用有可能超过集中火力和兵力的作用。对人而言，机就是延伸自我的一种工具，同时也是认知自我的一种手段，通过机的优点来了解自己的缺点，通过机的缺点来明了自己的优点，然后进行相应的补偿或加强。人机融合还不是一见钟情，这是因为缺乏双向性的感知与觉察。当前更多是主从相声似的人机交互，尽管还并不那么尽人意，捧逗还存在失调失配，但未来仍值得期待：毕竟人在发明机器的同时也在发现着自己。平心而论，智能什么时候从以数据为中心转变为以环境对象为中心，何时才可能有真正的智能产生。

对人机环境系统而言，机是相对理性的，人是相对感性的。一般而言，理性不能用于创造规则，也不能用于设计复杂系统，于是理性只能用于对已经存在的自发秩序的抽象和提炼上。如当我们看到梵·高画笔下的《鞋子》，不是单单观看一个静止的艺术品，而是通过鞋子感受到了人的生活，生活表象后人的思想、情感，从而感受到一个世界。画中的世界、艺术展现出的艺术世界、作者的世界和观者的世界，共同形成了艺术，而最古老的兵书就是战争的艺术（孙子兵法---The art of war）。归根到底，当前来看机器所能做的只是计算而已，而在计算与有意义的人类竞争之间，仍然有着根本的区别。正如拿破仑所认识到的，“世界上有两种力量：刀剑和思想。从长远来看，刀剑总是被思想打败”。但若没有历史和反思，人与机的区别并没有那么大，人的价值也无法完全体现出来。未来，自主人工智能机器的因果关系与人类的因果关系将会有很大的差异。机器的伦理也类似。其根本就是事实与价值之间的相互作用问题，即being与should的关系问题。人是由其信念所构成的，他即他所信。智慧不同于科学知识。科学关心事实如何，但智慧不能只关心事实，还要更关心如何给事物以价值和意义。科学关心事实如何，但智慧不能只关心事实，还要更关心如何给事物以价值和意义（美国的星球大战计划造成前苏联战略定力不够，进而忽悠崩溃了内部也日益渐下的前苏联）。军事智能与民用智能最后面临的终极问题很可能不是科技问题，还是那个永恒的话题——道德伦理，这也是超越了智能的智能，道德中的道是道路，德是得到，道德就是通往得到的道路；仁是人，义是应该。仁义道德就是人走向应该获得的道路！这实际上是感知觉的一种深度概念抽象加工，是一种直觉化了的认知框架结构，是一种无意识化了的深度态势感知，即符合内在道德要求的为刺激-反应快模式，而不是理性的刺激-选择-反应慢模式。道德也是最高的军事智能：不战而屈人之兵。

随着智能技术的不断发展，军事智能以及民用智能最后面临的终极问题很可能将不再是科技问题，而是如何界定其权责范围，如何定义人类智能与人工智能之间的关系，这还是那个永恒的话题——道德伦理，这也是超越了智能的智能。2018年11月美国《2019财年国防授权法案》批准新设立了一个独立委员会——人工智能国家安全委员会。人工智能国家安全委员会旨在全面审查、分析人工智能技术及系统，并在六个月内为国会和美国政府编写人工智能报告，提出今后的规划建议。《法案》要求该委员会采取必要的方法和手段，推动美国人工智能、机器学习和相关技术的发展，以全面满足美国国家安全和国防需要。此外，《法案》还要求美国防部(DoD)不断开发人工智能技术，促进人工智能的可操作性应用。据此，国防部一名高级官员正努力制定战略计划和蓝图，以识别、协调人工智能技术和“关键性应用能力”，加快人工智能的发展和部署。联邦政府和参众两院议长将共同任命15人组成人工智能委员会。委员会的任务包括：(1)考察人工智能在军事应用中的风险，以及对国际法的影响；(2)考察人工智能在国家安全和国防中的伦理道德问题；(3)建立公开训练数据的标准，推动公开训练数据的共享。

客观而言，人机融合智能及其态势感知研究是一个领域，不是一个学科，我们要用不同的方法论，从不同的角度来研究这种新型智能，方法论、角度越多，人机融合智能研究就会做得越好，也许智能领域什么时候从以数据为中心转变为以环境对象为中心，什么时候才可能有真正的智能出现吧！因为人从来不是靠数据说话的，而是靠认知环境中各对象的联系产生智能的。另外，反其道而行之，就可以破坏人机融合智能及其态势感知（及OODA链路）系统，具体如下：割裂输入融合，使数据、信息、知识异质化；阻断处理融合，让非公理、公理分歧化；肢解输出融合，把直觉决策与逻辑决策区别化；瓦解回馈融合，人机的反思、反馈悖论化；离散综合融合，人的情境意识与机器的态势感知矛盾化。

总之，军事人机融合智能领域的发展离不开长期的技术积累，重点是要依靠数据、算法、硬件等基础支撑层面的技术突破和人机交互、工效学等技术的有机磨合。目前虽然出现了人机融合智能军事应用热潮，在自主系统、ISR、辅助决策、人机协同领域出现了不少新的技术应用，但人机融合智能技术本身仍属于较弱功能范畴，技术进展不大，这也限制了人机融合智能的进一步应用。美军在发展人工智能技术时并不是一味强调应用，而是投入大量资金长期推动数据、算法、硬件、实验等基础支撑技术的发展，通过内部独立研究实验室持续累积数据分析、基础算法、智能硬件、基础工效实验等方面的技术成果，在此基础上优先选择人机融合智能技术中较成熟的图像、语音识别等，通过短期项目进行军事应用转化，通过长短期项目相结合，基础与应用并重的理念推动人机融合智能技术发展。

白驹人机与认知实验室

深绿” 及 AlphaGo 对指挥与控制智能化的启示

【编者按：人机融合的指挥与控制系统犹如纠缠在一起的DNA结构，紧密、有机、和谐，衍生着一种新型的智能形式，但有时也会被编辑、改造、变异，形成一种奇怪的非智能意向。正可谓：形式化的数据计算+意向性的对象认知将演化出一个依稀朦胧的新时代——人机时代】

摘要随着未来战争日趋复杂、人工智能突飞猛进, 指挥与控制向智能化发展成为大势所趋. 美军的 “深绿” 计划项目虽因各种原因暂停, 但其思路和方法值得借鉴. AlphaGo 在围棋领域战胜人类顶尖水平, 其采用的方法也有一定的参考价值. 简要介绍了二者采用的方法, 并开展了方法适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并对指挥与控制智能化的发展提出了启示和建议.

指挥与控制是一项跨物理域、信息域和认知域的学科, 既包含工程, 也包含艺术.受到信息技术发展的推动和制约, 多年来指挥与控制技术的发展大量集中在信息域和物理域, 在指挥与控制系统工程方面取得了长足的进步, 但在指挥与控制辅助决策方面, 尤其是涉及指挥艺术的认知域, 一直停留在初级阶段. 虽然设计了一些辅助计算模型,但在现代化战争复杂、快速、多变的特性面前, 可信度、实用性远远不能满足实际需要. 美军曾推出 “深绿” 计划, 旨在探索智能化的指挥与控制辅助决策, 但也因战争的复杂性等种种原因未获成功.人工智能技术近年来发展迅猛,尤以深度学习技术为代表, 在语音识别、图像识别、运动感知等领域纷纷取得了突破性的进展.AlphaGo与李世石的一场围棋大战获得了举世瞩目, 最终人工智能以4:1 的结果战胜了人类, 代表其在认知领域再下一城,一时间掀起了热议. 紧接着, AlphaGo宣称要挑战星际争霸, 更是将人工智能推向了神坛. 围棋和星际争霸这两类游戏,和军事指挥与控制有着紧密的联系, 尤其是星际争霸与战争有着很高的相似度. 因此, 很自然的想法, 就是将人工智能技术应用于作战指挥. 随着美军宣称要将人工智能列为 “改变游戏规则” 的颠覆性技术大力发展, 国内外对指挥与控制智能化的呼声也越来越高.相比之下, AlphaGo是智能化技术向军事领域的推进, 而“深绿”则是从军事领域推智能化. 两者虽然一成一败, 都不失为军事指挥与控制智能化发展的里程碑.其中涉及的技术方法,很值得深入研究.本文简要介绍了二者采用的技术方法, 并开展了方法适用性分析, 研究了其在指挥与控制领域的应用机理及能力, 分析了应用的难点及对策, 并作为抛砖引玉, 对指挥与控制智能化的发展提出了启示和建议.

1 方法简介及适用性分析

1.1 美军 “深绿” 系统

“深绿”计划是美国国防部高级研究计划局DARPA支持的一项面向美国陆军、旅级的指挥与控制领域的研究项目, 是将人工智能引入作战辅助决策的一项尝试探索. 文献对 “深绿” 计划中应用的技术、执行的情况、及其面临的困难和挑战进行了深入探讨.

深绿的核心技术本质上是基于实时态势的动态仿真, 也是 “平行仿真” 的核心要义. 仿真擅长逼真地、量化地模拟复杂多因素综合作用的过程和结果, 而这是很难用传统的数学公式描述出来的. 基于实时态势做仿真, 可以量化地估计未来某一时刻的战场状态,也可以帮助人理解各种量变在不同时间、空间上交叉产生、综合作用之后可能带来的质变, 这种质变代表具有不同意义的战场态势局面. 在复杂战争中, 可能导致不同态势局面的因素众多, 包含各种随机性、偶然性, 一个细微的因素可能改变整个战局的发展. 使用仿真的方法, 可以尽可能地将每一个细节因素的影响都模拟出来, 只要模型足够逼真, 计算平台足以支撑.

然而, 用仿真来预测战场变化的一大缺点, 是无法应对分支太多的情形. 包括敌方战术策略、我方应对策略、环境变化、随机过程等不确定性都会导致分支出现. 而各种不确定性的组合爆炸是 “深绿” 面临的最大难题. 按照深绿的方法, 每种可能的分支都要仿真模拟一遍才行, 那么分支一多, 这种仿真模拟的计算资源和时间成本就十分高昂, 以至于无法实现. 但事实证明, 战争迷雾无处不在, 只有战术层面、短时间内, 不确定性才相对较少. 但很明显, 战术层面、短时间内的预测对指挥员而言非常简单, 用机器预测的意义不大. 此外, 态势与决策的输入输出、数据的决定性、计算机与人协同等问题, 都是 “深绿” 计划面临的难题.

美军于 2011 财年终止 “深绿” 计划的原因是多方面的, 包括技术上存在的风险, 也包括经费、人员等各方面因素. 美军高调宣称终止某项研究计划的背后, 往往在隐秘地持续开展相关研究. “深绿” 计划表面上虽然被叫停, 不排除相关研究仍在继续的可能.

1.2 谷歌 AlphaGo系统

相比于军方自顶向下推进指挥与控制智能化的努力困难重重, AlphaGo 在民用领域取得的突破可谓另辟蹊径, 后来居上.

AlphaGo 所采用的核心技术是深度学习和蒙特卡洛搜索，特别擅于分析博弈层面的问题, 而且已被证明比人类更擅长应对天文数字般的组合不确定性. 其通过训练深度神经网络, 实现对人类直觉思维的模拟, 是在神经网络技术应用中非常有魄力的一种创新. 神经网络虽然和人类大脑中的神经元系统相差甚远, 却被实践证明可以模拟非常复杂的映射关系. 而人类的直觉就是一种说不清、道不明的潜在映射关系. 机器通过千万级别的训练样本, 学会了人类的这种直觉, 可以直接生成当前局势的 “应对良策”(实际上是人类高手在同类局势下使用较多的棋招), 而不是对每种可能性都推一遍, 同时生成对最终输赢结果的价值估计 (实际上是人类类似棋局最终输赢结果的统计分布), 并在有限范围内开展推演求证 (由于缩小了范围, 屏蔽了细节, 推演效率高). 因此, 使用 AlphaGo 的方法, 可以帮助人们高效演算作战中的博弈问题, 从而寻求战法策略的优化.

然而, AlphaGo直接用于作战设计和分析是有问题的, 主要是屏蔽了太多细节导致的失真。和围棋不同, 战场上任何一招一策, 能达到何种效果, 都是和具体对象、环境相关的. 棋盘上看似简单的一步棋, 实际效果可能未必落在想要落在的那个格子里. 此外, 使用 AlphaGo方法, 还面临着战场抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等一系列问题, 下文中会详细阐述. 换言之, 单靠棋盘上的博弈验证战法策略的有效性, 有 “纸上谈兵” 之嫌, 具有一定的意义, 但实用性不强.

2 应用机理及能力分析

2.1 应用机理

“深绿”和 AlphaGo所采用的两种方法, 既可以分别应用在指挥与控制中, 也可以结合起来应用, 取决于实际需求.

1) “深绿”—— 战术级仿真推演

从美军 “深绿” 系统的设计初衷和其应用效果来看, 其更适合战术层级的仿真推演. 一方面, 战术层级的实体行为模型较易建立, 武器平台的运用规则相对简单、作用效果相对容易量化评估. 另一方面, 战术层级的不确定性相对较小, 因为时间相对较短、规模相对较小、流程相对固定. 再一方面, 战术层级的分析对于精确量化的要求更高, 武器平台的控制、打击效果的评估等都需要精确量化的数据支撑. 在战术级运用仿真推演, 可以充分发挥机器精确的计算能力.

2) AlphaGo—— 战略、战役级博弈推理

从 AlphaGo 定位于棋类游戏来看, 其更适合战略、战役层级的博弈推理. 棋招类似于战法, 走一步棋类似于指挥员下定一步作战行动的决心. 通过 AlphaGo 扮演 “蓝军” 指挥员, 与扮演 “红军” 的人类指挥员互相拆招喂招, 可以帮助指挥员定性地分析各种战法相互作用、多个回合之后的可能结果. 战争是不确定性的王国, AlphaGo 擅长的就是从大量不确定性中寻求可行解. 另外, AlphaGo 采用的自我博弈方法, 还能帮助指挥员从庞大的解空间中自动寻找最有可能取胜的战法组合, 帮助实现战法策略的优化.

3) 两者结合 —— 一体化作战设计分析

然而, AlphaGo 真正要用在指挥与控制领域, 实现从棋类游戏到战争推演的转化, 就要和 “深绿” 的方法相结合, 互相取长补短.

结合应用的机理如图 1 所示, 指挥员和机器在棋盘上进行对弈, 通过仿真环境实现和真实战场的对接. 首先, 指挥员在棋盘上设计战法, 相当于走出一步棋,“深绿” 系统使用草图到计划的功能, 将该战法细化成具体可操作的行动方案, 并基于实时接入的战场数据, 通过仿真模拟出方案执行后的效果, 将该效果抽象之后呈现在棋盘上, 即通过仿真估计出棋子可能落在哪一格. 接着, AlphaGo 用其深度学习得到的策略网络, 生成敌方的战法, “深绿” 系统将其细化成方案, 仿真出效果并抽象到棋盘上, 从而完成双方一轮走棋. AlphaGo 再用估值网络估计一下当前盘面的胜负概率, 并用蒙特卡洛搜索进行推演求证, 供指挥员分析参考.

按照这种方法, 战略、战役、战术层级得到了兼顾, 两种方法形成了优势互补, AlphaGo 解决了不确定性的问题, “深绿” 实现了 “纸上谈兵” 和实际战场的结合, 因此, 可用于一体化的作战设计分析.

2.2 应用能力

在指挥与控制领域应用 “深绿” 和 AlphaGo的方法, 可以实现很多前所未有的功能, 支撑战前推演、实时预测、临机决策、精准控制、战后评估等一系列指挥与控制业务.

1) 博弈式筹划推演

在战前, 可以将 AlphaGo和 “深绿” 结合起来, 实现博弈式的筹划推演. 一种是人 - 机博弈: 人类指挥员设计我方战法, AlphaGo 设计敌方战法, “深绿” 负责行动方案细化生成、行动效果模拟抽象, AlphaGo 估计胜负概率, 人类指挥员可以选择继续往下走, 或者悔棋重新设计战法, 重新推演, 以此反复修改优化方案. 另一种是机 - 机博弈: AlphaGo 用自我博弈的方法, 同时设计敌、我战法, 通过随机选择战法的方式, 把各种可能的战法组合都推演一遍, 并自动对推演结果进行批处理分析、比对, 从而帮助人类指挥员寻找较为理想的方案. 由于人类指挥员在设计方案时往往具有思维定势, 容易忽略掉一些可行解, 而器采用有限范围内的解空间搜索方式, 或许能搜出一些人想不到的方案, 其中不乏 “奇招、妙招”.

2) 实时态势预测

在战中, 可以将 AlphaGo 和 “深绿” 结合起来, 实现战场态势的实时预测. 其中, AlphaGo 主要负责敌方的出招预测, 即预测敌方在当前形势下, 下一步可能采用的战法. 但按其方法原理, 其只能预测当前局势下令对手赢面最大的一招, 而无法预测对手可能采用的 “昏招” 或 “险招”. “深绿” 主要负责战术层面的战场状态预测, 一是按敌我当前战法打下去, 量化估计下一时刻可能的战场状态, 二是考虑环境、对抗中的少量随机性, 或敌我战法的少量可选项, 归纳出短时间内未来态势可能出现的几种局面.

3) 临机快速决策

AlphaGo 的一大特点, 是克服大量未知不确定性的组合爆炸, 模拟人类的棋感直觉, 根据当前盘面形势快速拆招解招. 这种能力如果用在临机指挥中, 可以快速生成决策建议, 尤其是在突遭变化、敌方后招难以捉摸, 而形势又特别紧急的情况下, 可以避免人类指挥员容易出现的犹豫不决现象, 提升决策效率. 更重要的是, AlphaGo 在训练时使用的样本很多, 可以模拟很多高水平指挥员的共性直觉, 理论上其生成的建议有可能会优于单个人类指挥员. 当然, 以目前人工智能的水平, 支持战前筹划还行, 支持战中指挥有点不太现实, 但如果 AlphaGo攻克了星际争霸之类的实时竞技类游戏, 那就完全不同了.

4) 前馈式精准控制

深绿基于仿真的实时量化预测能力, 可以在行动执行过程中, 模拟战场多因素综合作用的结果, 超实时预测行动执行的效果, 并根据实时数据动态修正预测结果. 指挥员可以实时把握行动预计效果同预期之间的偏差, 提前对行动进行调整. 过去都是根据当前行动执行的结果, 来调整下一步的行动, 是在偏差已经产生情况下的调控. 而通过超前预测引入的反馈, 是在偏差尚未产生之前的调控, 类似控制论中的前馈式控制, 可以帮助指挥员防患于未然. 在此基础上, 如果仿真模型的粒度越细, 则效果预测就越精确, 控制的精准度就越高.

5) 战后评估训练

一方面, 战前的博弈式推演方法也可以用在战后, 对各种战法进行博弈演练, 发现战法存在的问题, 从而进行优化. 另一方面, 利用 AlphaGo中的深度学习技术, 还可以实现各种作战模型的训练优化. 很多作战模型因为影响因素太多、作用机理复杂, 传统数学模型难以精确拟合. 例如部队实战能力, 受敌我兵力配属、武器配备、使用战法、训练水平、士气、相对位置、战场环境等诸多因素影响, 一直以来都很难建模. 而指挥员和部队一起摸爬滚打多年, 对其实战能力的估计是比较准确的, 这种经验性的直觉判断, 类似 AlphaGo 对盘面胜负概率的估计. 神经网络具备超强的分类/拟合性能, 如果给定历史案例中各种情况下的战况数据, 用深度学习方式或许能拟合出一个较为精确的模型出来.

3 技术应用面临的挑战

“深绿” 计划面临的挑战如前所述, 包括战争的复杂不确定性、模型的精确性、计算资源的占用性等. AlphaGo的方法虽然在围棋领域取得了杰出的成就, 并且具有一定的通用性, 但真正应用在作战指挥与控制领域, 还面临许多挑战.

1) 战场抽象建模

棋盘上, 车无轮、马无缰, 一切都是简化过的. 而现实战争太复杂, 要考虑的细节因素太多, 只有抽象到棋盘层面, 才有可能分析战法博弈. 但如何抽象, 才能做到既简化了繁冗的细节, 又保留了博弈的本质, 是一个值得研究的问题. 例如, 战场态势决不仅仅是兵力的棋布, 各种相互关系、能势大小、趋势方向都应在棋盘上反映出来；调兵遣将也决不仅仅是棋子的位置挪移, 各种战法战术策略、武器使用方式都应在棋盘上可选. 其实这是兵棋要考虑的问题, 但现在的兵棋能否做到, 还有待验证.

2) 非轮次博弈

现代化战争不像古代的决斗, 不是你走一步我走一步的模式, 而是你走一步, 我可能走两步甚至更多. 战争也不是你走一子我走一子, 而是多个子同时在走. 像星际争霸之类的游戏是很接近战争, 但 AlphaGo 能否攻克还是未知数, 很可能不会采用和围棋一样的方法. 战争是连续演进的, 一种方式是采用某种策略将其离散化, 分成许多时间片段, 允许每个片段结束时双方各做一次决策 (保持不变也是一种决策), 然后套用围棋的方法, 这种方法带来的问题就是时间片划分多细合适, 太细了计算量大, 太粗了容易失真. 除此之外, 就需要创新提出完全不同于AlphaGo的方法来解决.

3) 非单一目标

棋盘对弈, 最终的目标就是输赢. 而实际战争往往没有那么简单, 很多情况下没有明确的输赢之分, 而是要达到某种期望的状态, 比如夺取制空权之类. 而且实际战争中除了输赢, 考评一个作战方案还有很多其它指标, 比如预期效能的达标性、损失代价的可接受性、资源占用条件的满足性、应对各种变化的灵活性等. 换言之, 实际战争的目标是非单一的, 是一套价值目标体系. 如何在棋盘对弈中模拟这样的价值目标体系, 而神经网络又如何来学习这种价值目标体系下的人类直觉, 都是值得研究的问题.

4) 不完全信息

棋盘上, 黑白分布一目了然. 而现实战争中, 信息有缺有失、有真有假. 当信息缺失时, 就好像一个人在下棋, 走了好几步之后, 才知道对手走到哪儿, 也不知道对手是怎么走到那里的, 那么在这几步 “盲棋” 中, 该如何做决策？另一方面, 当信息有假时, 就好像对手表面上走了一步棋, 实际上走的是另一步棋, 有一个看得见的棋盘和一个看不见的棋盘, 如何鉴别看得见的这步棋, 又如何估计看不见的那步棋？星际争霸游戏中设置了一部分信息缺失的元素, 例如未经玩家探索过的地区会蒙上一层黑幕. AlphaGo能否通过这样的考验, 让我们试目以待.

5) 不完备规则

棋盘上, 一招一式都有规定, 规则是明确的, 对双方是一致的. 而现实战争中, 招无定式、兵无定法, 人可以随时创造出新战法. 朱可夫在与关东军作战中, 用滑轮绳索将坦克拉上陡坡, 实现了出奇制胜. 而现代化战争中, 前方兵力看似不多, 后方一枚远程导弹就有可能瞬间改变战局, 美军号称一小时内能打到全球任何一处, 小小棋盘又哪能覆盖无边界的战场？即便循规蹈矩地照教科书上的战法, 用在不同的实际情况下也是需要调整的, 创新是无处不在的. 试想两人对弈中, 如果对手不断地违规走棋, 即便是 “围棋之神” 也难以取胜. 当然, 实际战争中对手的规则也不是完全不清楚, 是可以大致估计出来的, 很多情况下对手别无选择, 这里面有个度的问题.

6) 缺训练样本

棋局盘面可以达到千万级的规模, 现实战争不太可能. 即便算上演习训练, 也离这个规模相去甚远. AlphaGo 通过自我博弈无中生有地制造了大量样本, 这对于战争能否做到是个问题. 棋盘上自我博弈较为简单, 用于作战还要解决从战法到行动方案的自动生成问题. 此外, 人造的样本能不能用也是个问题, 深度学习如果学到的是人造的规律, 就失去了意义. 另一方面, 人类自身在学习时并不需要太多样本, 打过几次仗的兵就算老兵了, 一生身经数十战就是 “战神” 了, 人类靠的不仅仅是经验积累, 每积累一次经验都会带有思考, 让理性思维和感性认识相结合, 才能实现快速学习. 如何让机器像人一样去学习作战, 是很值得研究的问题.

上述挑战问题, 每一个目前都没有很好的解决办法, 但笔者相信随着技术的发展, 它们终有一天会被解决. 正如 AlphaGo 赢棋之前, 很多人预测这一天还要很多年才能到来. 我们处在技术飞速发展的时代, 每一天都在见证奇迹的出现.

4 指挥与控制智能化发展着力点

分析认为, 不论 AlphaGo还是 “深绿”, 其迈向智能化的基础都是知识. AlphaGo的知识是16万人类高手的围棋棋谱, “深绿” 的知识是各种仿真实体的交战模型. 没有这些知识做基础, 它们是达不到现在的智能化程度的. 因此, 知识工程是智能化的基石, 解决智能化的关键问题, 还应从知识表示、知识学习、知识推理等基础问题入手, 加强技术方法研究.

1) 加强指挥员认知域的知识表示方法研究

智能化的第一步, 是让机器理解战争, 理解战场上发生的事, 以及指挥员心中考虑的问题. 分析战争问题, 很重要的一点就是抽象. 要分析战法博弈层面的问题, 首先要分析一下指挥员心中的棋盘是什么样的, 指挥员是如何分析任务目标、理解战场局势、设计作战思路的、评价作战效果的, 指挥员大脑里抽象、模糊、不确定的知识产物具有哪些要素特征. 然后探寻如何将这些要素特征形式化描述, 以便机器理解.

2) 加强复杂战争规律的知识学习方法研究

战争规律不断在变化, 而且复杂性也在不断提升, 人类经验总结是一方面, 机器学习的方法可以帮助人类提升对复杂战争规律的认识. 运用深度学习方法, 首先要解决训练样本的问题, 可用的实际战争和演习数据有限, 一种可行的途径是通过仿真模拟的作战过程积累数据. 因此, 要大力建设作战仿真模拟环境, 类似星际争霸之类的战争游戏, 还应当越做越精细, 更加逼真的模拟真实作战, 不仅仅是在画面效果上, 还要在作战流程、交战对抗、实体行为决策、战场环境上尽量贴近真实, 让更多一线的指挥人员成为游戏的玩家, 同时也让将战争游戏打造成为检验战法战术的试金石和试验田. 在积累了大量指挥军官的游戏数据之后, 深度学习才能派上用场.

3) 加强面向博弈对抗的知识推理方法研究

如前所述, 战争博弈对抗具有非轮次博弈、非单一目标、不完全信息、不完备规则等特征, 传统的知识推理方法存在适用性问题. 因此, 在充分吸收 AlphaGo的推理方法的同时, 还应结合逻辑推理、不确定推理、基于案例的推理、基于仿真的模拟推演,以及传统的数学计算等多种手段, 或者创造新的推理方法. 另一方面, 人工智能目前还不能完全替代人类的智慧, 但两种智能可以结合起来解决问题. 如何优化人和机器的智能分工与协作效率, 实现智能输出的最大化, 也是值得研究的问题.

5 启示及建议

本文对美军 “深绿” 计划及 AlphaGo进行了简要的介绍, 分析了其各自的优缺点, 提出了将二者的核心技术方法结合起来, 应用于战前推演、实时预测、临机决策、精准控制、战后评估等指挥与控制业务的方法.同时, 也从战争抽象建模、非轮次博弈、非单一目标、不完全信息、不完备规则、缺训练样本等方面分析了技术应用面临的挑战, 指出发展指挥与控制智能化应以知识表示、学习、推理等基础问题作为着力点. 知识是智能化的核心, 而数据是根基, 所谓 “巧妇难为无米之炊”, 是当前指挥与控制智能化面临的困境, 因此, 要大力推进知识工程建设, 积累数据是关键。

人工智能技术虽然不能说已经成熟, 但足以和目前的指挥与控制系统拉开足够差距, 可以发展的空间很大, 很多传统方法解决不了的问题有可能通过智能化技术解决。然而，发展智能化指挥与控制要一步步来，不能急功近利，“深绿” 就是前车之鉴, 把握不好, 一次重大失利, 就可能将其带入低谷. 深度学习技术只是人工智能的一种方法, 不能解决所有问题, 其他人工智能方法也有待进一步发展, 关键在于如何结合领域特征高效转化应用. 最后, 应当将人工智能当作指挥员的助手, 用于辅助决策, 但最终做决定的还应当是人类, 全自主化战争目前来看还太遥远。

参考文献略

本文摘自《指挥与控制学报》2016年9月

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。