多域作战(MDO)概念的核心是利用由分布在多个合作伙伴之间的远程和自主传感器以及人类智能组成的重叠系统的情报、监视和侦察(ISR)网络。实现这一概念需要人工智能(AI)的进步,以改善分布式数据分析,以及智能增强(IA),以改善人机认知。本文的贡献有三点。(1)我们将联盟态势理解(CSU)的概念映射到MDO ISR的要求上,特别关注对有保障和可解释的人工智能的需求,以便在资产分布于多个合作伙伴的情况下进行强有力的人机决策。(2) 我们提出了MDO ISR中人工智能和IA的说明性情景,包括人机合作、密集的城市地形分析和增强资产互操作性;(3) 我们评估了与情景相关的可解释人工智能的最新进展,重点是人机合作,以实现更快速和敏捷的联盟决策。这三个要素的结合旨在展示CSU方法在MDO ISR背景下的潜在价值,基于三个不同的用例,强调了在多伙伴联盟环境下对可解释性的需求是如何的关键
多域作战(MDO)需要在有争议的环境中,针对近邻对手,在多个领域--从密集的城市地形到空间和网络空间--开展行动的能力、能力和耐力(美国陆军2018年)。MDO作战环境的一个关键特征是,对手将在所有领域、电磁频谱和信息环境中进行争夺,而盟军的主导地位是无法保证的。敌人试图通过在时间上、空间上、功能上和政治上等多个方面将友军分开来实现对峙。通过降低盟军的识别、决策和行动的速度,以及通过多种手段(外交、经济、常规和非常规战争,包括信息战)瓦解联盟来实现对峙。在这种情况下,快速和持续地整合收集、处理、传播和利用可操作的信息和情报的能力变得比以往任何时候都更重要。
为了应对这一挑战,MDO中的分层ISR概念设想利用 "与合作伙伴开发的现有情报、监视和侦察(ISR)网络。...由远程和自主传感器、人类情报和友好的特种作战部队的重叠系统组成'(美国陆军2018年,第33-34页)。在空前激烈的竞争环境中实现ISR资产的价值最大化,需要有能力在合作伙伴之间共享资源--在作为联合、机构间和多国团队的一部分进行的行动中--在一个可控但开放的联盟环境中,以可知的信任和信心水平。
人工智能(AI)和机器学习(ML)技术被视为实现MDO中分层ISR愿景的关键:"迅速将数据传播给采用人工智能或其他计算机辅助技术的野战军或军团分析小组,以分析大量数据"(美国陆军2018年,第39页)。事实上,MDO环境的要求被视为需要一种能力,以超过人类认知能力的速度和规模,融合包括ISR在内的多个领域的能力。强大的、可互操作的人工智能/ML被认为是融合来自多种资产的数据并在行动伙伴之间传播可操作的知识以告知决策和任务完成的关键(Spencer, Duncan, and Taliaferro 2019)。
总之,挑战是使人类和机器智能体(软件和机器人)能够在联合、机构间、多国和高度分散的团队中有效运作,arXiv:1910.07563v1 [cs.AI] 2019年10月16日 在分布式、动态、复杂和杂乱的环境中。从人类的角度来看,人工智能和ML是克服人类因操作速度和规模而产生的认知限制的必要工具,其目的是增强--而不是取代--人类的认知和决策。在这里,我们把智能增强(IA)看作是对人工智能的补充,正如在人工智能历史的最早时期(Engelbart 1962)所设想的那样。我们专注于由人类和AI/ML智能体组成的快速形成的联盟团队,在网络边缘运作,具有有限的连接、带宽和计算资源,发挥决策作用,例如,陆军士兵在密集的城市环境中。然而,大部分的讨论也将适用于其他领域的一系列其他角色,例如,进行网络领域决策的情报分析员。
我们之前在一个相关的背景下研究了这一挑战:联盟情境理解(CSU)(Preece等人,2017年),其中我们确定了人机协作中两个特别重要的属性:可解释性以支撑信心,可讲述性以提高操作的灵活性和性能。本文主要关注其中的第一个属性,但也涉及到第二个属性。我们首先在MDO背景下重新审视了CSU的概念,然后研究了该概念在三个MDO小故事中的应用:人机协作、密集城市地形分析和增强资产互操作性。最后,我们评估了与小插曲相关的可解释人工智能的最先进技术,强调了分层解释的概念(Preece等人,2018)是如何与MDO分层ISR中的人工智能/ML保证需求相适应的。
在继续之前,我们退一步指出,MDO环境的关键特征--(i)快速变化的情况;(ii)获得真实数据来训练AI的机会有限;(iii)行动期间的嘈杂、不完整、不确定和错误的数据输入;以及(iv)采用欺骗性技术来击败算法的同行对手--并非军事背景所独有;它们通常在政府和公共部门的应用中更普遍存在,正如这些努力的联合、机构间和多国方面。事实上,一般来说,MDO概念的多领域广度及其对竞争和冲突阶段的考虑,意味着MDO影响到属于政府和公共部门的政治和社会领域。
形势理解(SU)是 "将分析和判断应用于单位的形势意识,以确定现有因素的关系,并形成关于对部队或任务完成的威胁、任务完成的机会和信息差距的逻辑结论的产物"(Dostal 2007)。英国的军事学说(英国国防部2010年)对理解的定义如下:
理解(洞察力)=对形势的认识和分析
理解力(预见力)=理解力和判断力
在这里,理解包括预见性,即推断(预测)潜在的未来状态的能力,这与SU涉及能够得出有关威胁的结论的常见定义是一致的(Dostal 2007)。预见性必然包括在时间上处理和推理信息的能力。这些关于SU的观点与信息融合有着内在的联系,因为它们涉及收集和处理来自多个环境来源的数据,作为得出SU的输入。就数据融合的JDL(Joint Directors of Laboratories)模型而言(Blasch 2006),就考虑的语义实体和关系的种类而言,CSU问题可能涉及相对较高或相对较低的理解水平。例如,在相对较低的层次上,CSU问题可能只涉及车辆或建筑物等物体的探测、识别和定位(JDL 1级和2级)。在更高层次上,CSU问题将涉及到确定威胁、意图或异常情况(JDL 3级)。此外,来源通常会跨越多种模式,例如,图像、声音和自然语言数据(Lahat, Adali, and Jutten 2015)。
图1:CSU分层模型(来自(Preece等人,2017))虚拟分布于多个合作伙伴,并采用多种技术:人机协作(HCC)、知识表示和推理(KRR);多智能体系统(MAS);机器学习(ML);自然语言处理(NLP)、视觉和信号处理(VSP)。
我们在联盟行动背景下的SU的概念架构--联盟态势理解(CSU)--如图1所示。最底层由数据源(物理传感器和人类产生的内容)的集合组成,可在整个联盟内访问,收集多模式数据。上面的三层大致对应于JDL模型的0-3层。对于每一层,图中显示了所采用的主要技术--包括人工智能和ML--,尽管其他技术也可能被利用。信息表示层使用传入的数据流来学习概念,并对实体以及它们在多层次语义颗粒度上的关系进行建模。过去的观察历史以明确或隐含的方式被编码在这些表示中。信息融合层采用所开发的算法和技术,对来自信息表示层的概念和实体进行赋值。该层估计世界的当前状态,提供洞察力(态势感知)。然后,预测和推理层使用估计的当前状态,加上模型的状态空间来预测未来的状态,提供预见性(情景理解)。图中描述了联盟的虚拟视图:所有四个层都分布在联盟中。
根据用户融合模型(Blasch 2006),图1中的上层需要对人类开放,为推理提供专家知识;这些层也需要对人类用户开放,即能够对系统产生的洞察力和预见力进行解释。不同层之间存在着双向的信息交流:在向上(前馈)的方向,低层的推理作为下一层的输入;在向下(反馈)的方向,信息被用来调整模型和算法参数,并可能以不同的方式给传感器分配任务。要创建更好的系统来支持CSU,就必须开发成熟的模型和算法,在一段时间内减少人类的干预,实现更大的自主性,但不能取代人类的参与和监督。
以MDO的分层ISR概念为出发点("远程和自主传感器、人类智能和友好特种作战部队的重叠系统"(美国陆军2018年)第34页 ),我们认为人类是图2中描述的多智能体环境中的三种ISR智能体之一,同时还有基于(i)亚符号AI技术(例如深度神经网络(LeCun, Bengio, and Hinton 2015))和(ii)符号AI技术(例如基于逻辑的方法)的软件智能体。为了实现这三种智能体(ISR资产)之间的互操作性,我们需要:
1.使亚符号人工智能智能体能够分享不确定性意识到的见解和知识的表示,然后可以传达给符号人工智能智能体。
2.使符号人工智能智能体能够从数据中学习因果联系的不确定性分布,同时能够与亚符号人工智能智能体分享洞察力;以及
3.开发共生人工智能技术,以有效地与人类互动,首先是通过从人机合作活动中不断学习来适应定型的行为。
图2:CSU的多智能体非层次方法:(上)人类智能体,(左下)亚符号AI智能体,(右下)符号AI智能体。
前两个案例的重点是机器资产之间的互操作性。在第三个案例中,我们超越了传统的分层架构,即人类只与装备了符号化人工智能的智能体进行互动,而这些智能体又利用亚符号化人工智能在特定任务上实现人类水平或卓越的性能。这样的传统架构是有限的,因为:(1)并不总是需要符号AI与人类互动(Ribeiro, Singh, and Guestrin 2016);(2)有些任务,符号AI可以支持亚符号AI智能体(Xu等人,2018);(3)有些任务,人类可以支持符号和/或亚符号AI智能体(Phan等人,2016),因此AI智能体需要配备学习和推理人类层次和结构的能力。
图3提供了(Spencer, Duncan, and Taliaferro 2019)中设想的MDO分层ISR架构与前面对资产的符号化、亚符号化或混合化特征之间的映射。
图3:来自(Spencer, Duncan, and Taliaferro 2019)的简化版图:矩形代表符号系统;圆形代表亚符号系统;圆角矩形代表混合元素。
我们的工作旨在提高能力,以促进复杂的联盟任务,支持MDO,其中联合和多国团队和多领域的需求是至关重要的(美国陆军2018)。最重要的是,在作战情况发生时提供一个连贯的观点和评估,从而在复杂、有争议的环境中整合CSU的学习和推理,为网络边缘的决策者提供信息。如前所述,CSU既需要集体洞察力--从不确定且通常稀少的数据中获得对局势的准确和深刻理解,也需要集体预见力--预测未来会发生什么的能力(Preece等人,2017)。
多年来,承受力的概念一直是人机交互(HCI)领域的核心,指的是一个物体的 "用途",即 "该事物的感知和实际属性,主要是那些决定该事物如何可能被使用的基本属性"(Norman 1988)。在MDO分层ISR的背景下,有必要考虑人类和机器资产对一系列ISR任务的承受力。人机合作的目的是为了让每一方都能利用对方的优势,并弥补对方的弱点(Cummings 2014)。例如,(Crouser和Chang,2012年)将视觉分析范围内的机器能力描述如下:
基于目前的机器能力,以下内容构成了人类资产的负担(Crouser和Chang 2012):
在履行MDO的过程中,设想部署有人和无人的战术总部(HQ)将变得很普遍,如图4所示,该图是根据(White等人,2019年)中的情景阐述的。在这里,在部署有人值守的总部A的同时,在高威胁地区进一步建立了第二个无人值守的总部B,由 "虚拟参谋 "组成。这些人被设计成与有人值守的总部中的对应人员一起工作,并减少总部的足迹以及人类操作员的工作量和威胁。自主和载人的传感器混合在一起进入无人总部,人机合作提供了持久的要求,即有一个 "人在循环",以做出关键的最终决定。
图4:战术领域的人机协作:部署配备了亚符号和符号AI智能体的有人和无人战术总部;阐述自(White等人,2019)。
全球城市化速度的加快,以及城市和特大城市的战略重要性,确保了MDO行动将在密集的城市地形中进行。在这里,密度指的是这种环境的物理和人口性质,产生了特定的物理、认知和行动特征。在密集的城市地形中进行MDO的准备工作,需要进行情报活动以了解人类、社会和基础设施的细节;这些地区的特点是多样化的、相互联系的人类和物理网络,以及提供不同程度的现成掩护和隐蔽的三维交战区。
在这种环境下,ISR将利用和增强民用基础设施。例如,民用CCTV(闭路电视摄像机)的使用将越来越多地得到自动面部识别处理的增强,以探测和跟踪高价值目标,或支持建筑的生活模式。随着目标进入车辆,民用自动车牌识别技术可能被利用。这种城市基础设施的多样性--在某些情况下扩展到全面的 "智能城市 "整合--为ISR资产之间的敏捷互操作性提出了进一步的要求,特别是由于ISR任务不一定能事先计划需要什么样的收集和处理。在这种情况下,分析的构成将是动态的和针对具体情况的,并不断地重新提供和优化资源(White等人,2019)。
在密集的城市地形中,对联合、机构间以及经常是多国合作的需求进一步凸显。如上所述,在这种情况下,CSU取决于人与人工智能的合作:AI智能体等机器流程在数据分析方面提供了强大的能力,但它们需要为其产出提供一定程度的保证(解释、问责、透明),特别是当这些产出被没有接受过信息科学技术培训的决策者所使用,并且他们可能正在利用相对陌生的当地ISR资产。目前的ML方法在生成CSU所需的世界的可解释模型(即表征)的能力上是有限的(Lake等人,2017)。此外,这些方法需要大量的训练数据,并且缺乏像人和基于知识表示的系统那样从少量的例子中学习的能力(Guha 2015)。人类专家告诉机器相关信息的能力--通常来自他们对当地环境的生活经验--增加了人类与人工智能互动的节奏和颗粒度,以及系统在满足任务要求方面的整体响应能力。因此,重要的是为联盟机器智能体配备综合学习和知识表示机制,以支持CSU,同时提供保证(可解释性)和被告知关键信息的能力,以减轻稀疏数据的问题(可讲述性)。在最近的研究中,我们为神经符号混合环境建立了重要的基础,包括多模态数据的多智能体学习(Xing等人,2018)、证据性深度学习(Sensoy、Kaplan和Kandemir,2018)、概率逻辑编程(Cerutti等人,2019)、正向推理架构,其中神经网络的输出被送入概率逻辑引擎,检测具有复杂时空特性的事件(Vilamala等人,2019)。
上一节中的三个小情节所产生的目标是,通过创建系统架构,使机器和人类智能体人之间能够协同合作,在有争议的环境中获得可操作的洞察力和预见力,从而应对在MDO中快速利用适应性ISR知识为各联盟提供决策依据这一挑战。
在我们早期对CSU的研究中,我们发现需要将来自各联盟伙伴的人类和机器智能体敏捷地整合到动态和反应的团队中。我们已经将其正式化为人类-智能体知识融合(HAKF):一种支持这种深度互动的能力,包括可解释性和可告知性的双向信息流,从而使人工智能和人类之间进行有意义的沟通(Braines, Preece, and Harborne 2018),如图5所示。这种HAKF能力支持可解释性和可讲述性自然地成为人类和机器智能体之间的对话过程(Tomsett等人,2018),使AI智能体能够对复杂的机器/深度学习分类产生的结果提供解释,并接收修改其模型或知识库的知识。
图5:人类-智能体知识融合,提高信心和性能,支持更好的决策。
一个关键的要求是在上一节强调的分布式符号/亚符号整合中加入人类互动,并建立各种人类和AI智能体需要掌握的最低限度的共同语言集,以确保特定任务的有效沟通。为了支持动态情境感知收集和信息处理服务背景下的直观的机器可处理的表述,我们特别关注机器生成的信息的人类可消费性,尤其是在对话式交互的背景下,以及决策者可能缺乏信息科学的深度技术训练的情况下。这种共同语言必须能够传达不确定性和适当的结构,以实现与亚符号层的整合,以及与该领域相关的更传统的语义特征。我们并不局限于纯粹的语言形式,新的视觉或图表符号,或者其他交流技术,都可以作为解决方案的一部分。
此外,有必要考虑各种自主智能体之间自动谈判的情况,其中一些将是人类。同时,人类本身也可以成为学习任务的对象:如果机器智能体对单个人类智能体(或一般的人类智能体)有足够的了解,可以推断出建议或变化的影响,他们自己的行为就有可能被推到特定的方向。此外,机器智能体可能需要在人类智能体中找出最适合某项任务的人,而历史数据可以帮助他们实现这一目标。这种共生的人工智能技术可以用来更有效地与人类互动,起初是通过从人机互动中不断学习来适应定型行为。
在有争议的环境中,这种复杂和动态的混合设置特别有风险,容易被利用,因此需要整合不确定性意识和概率能力。所有这些都要在与决策任务和人类用户的参与相适应的节奏下实现,机器智能体能够支持实时互动。
在最近的工作中,我们从解释接受者的角度研究了可解释性,有六种(Tomsett等人,2018):系统创建者、系统操作者、根据系统输出做出决定的执行者、受执行者决定影响的决策主体、其个人数据被用于训练系统的数据主体,以及系统审查者,例如审计师或监察员。基于这个框架,我们提出了一种 "分层 "的方法,通过复合解释对象为不同的利益相关者提供不同的解释(Preece等人,2018),该对象将满足多个利益相关者所需的所有信息打包在一起,并可以根据接收者的特定要求进行解包(例如,通过访问器方法)。我们认为这样一个对象是分层的,具体如下。
第1层--可追溯性:基于透明度的模型内部状态的绑定,所以解释并不完全是事后的合理化,显示系统 "做了正确的事情"。
第二层--证明:与第一层相联系的事后表述(可能是多种模式),提供输入和输出特征之间的语义关系,表明系统 "做了正确的事情"。
第三层--保证:与第二层相联系的事后表述(同样,可能是多种模式),明确提及政策/本体元素,以使接受者相信系统 "做了正确的事"。
我们考虑了一个密集的城市地形环境,借鉴了(Kaplan等人,2018),其中包括CCT V在内的民用传感基础设施得到了联盟ISR资产的补充。正如(Vilamala等人,2019年)所阐述的那样,使用活动识别AI/ML服务监测来自公共市场的视频资料。在闭路电视画面中突然检测到爆发了异常的、"暴力 "的身体活动。此时,通过增强的资产互操作性,联盟ISR系统按需访问其他传感方式,以获得更多关于情况的数据,挖掘最近从市场上收集的音频数据,这些数据通过声学传感器获得。处理音频流的相关部分显示出有节奏的吟唱,与视觉活动融合在一起,表明该活动是该地区特有的无害舞蹈仪式。请注意,该活动不具威胁性的推论构成了情景理解:具有预见性的洞察力。此外,虽然可以想象,当有足够的数据对活动进行分类时,无害的舞蹈可以通过机器处理来识别,但在(Kaplan等人,2018)中,我们考虑的情况是,识别这种活动需要当地的文化知识,并由人机合作处理:机器将异常的视觉活动,包括来自音频的额外背景,提请有经验的人类智能体注意。
我们的分层解释概念支持 "打包 "三个层次的解释,以支持本例中人类的自信决策。
就视频和音频中的突出特征而言的可追溯性,例如,使用(Hiley等人,2019年)中的技术来区分重要的空间和时间特征(在后者,"暴力 "运动)。
假设可以通过机器处理来推断活动的意义(洞察力和预见力),那么推断的理由就很充分;以及
保证反事实已被考虑(无害与攻击性行动的可能性),可能通过(Kaplan等人,2018)的不确定性意识方法表示。
在本文中,我们将联盟态势理解的概念应用于在多领域作战中实现分层ISR的问题,特别是在人工智能和机器学习服务提供改进的分布式数据分析,以及情报增强--特别是对有保证和可解释的人工智能的需求--支持改进人机认知的情况下。我们重点关注实现分层ISR愿景的三个要素:人机协作、密集的城市地形分析和增强的资产互操作性,强调在多伙伴联盟环境下对可解释的人工智能的需求是如何的关键。
我们目前和未来的工作集中在图2所示的一般问题上:使亚符号AI智能体分享不确定性意识到的见解和知识表示,然后可以传达给符号AI智能体,同时也使符号AI智能体有能力将见解分享给亚符号AI智能体(即机器对机器的可解释性)。最终,我们寻求开发技术,使人工智能/语言智能体能够通过从人机合作活动中不断学习而与人类协同互动。