危机管理是北约的一项核心任务。今天,联盟面临着危机和紧急情况,必须在相当大的风险和时间压力下采取行动。北约正在发展能力,以便在个案和协商一致的基础上为有效的危机管理和灾害预防作出贡献。这将使联盟能够积极参与危机管理和灾害管理,包括通过non-Article 第5条的危机应对行动。因此,联盟提倡对军事人员和文职人员进行联合培训,以促进建立信任。这些行动要求需要转化为技术系统能力;这意味着实施技术解决方案,用于培训和灾害决策支持。

MSG-147项目和CMDR CoE的目标是开发一个参考架构并实施一个技术平台,以便能够快速有效地测试危机/灾害和气候变化应对计划。开发工作包括研究、理论和概念开发、标准化和改善互操作性。该平台将为危机管理和公民保护建立各种工具和模拟,这些工具和模拟是北约所特有的,并能实现非军事行动

在这种情况下,建立模拟单元,使灾害相关事件的数据在HLA环境中交换,并同时将这些信息(报告/单位条件)传输给军事(北约和国家)和民用C2系统,是MSG-147小组技术性能的一个突出成果

本文件描述了德国对支持NMSG-147项目的贡献所面临的挑战、开展的工作和取得的成果。德国的贡献包括概念和技术两方面的成就。CD&E(概念开发和实验)方法被用来调查和验证所产生的概念要求和技术解决方案。

为了能够提供一个已实施的解决方案,开发了灾难FOM模块(与NETN FOM v2兼容并可集成),并成功进行了测试。对这一概念进行技术调查的一个特殊创新是应用CD&E方法和程序来评估M&S领域的新技术解决方案及其实施。

关键词:自然灾害、建模、仿真、联邦对象模型、CBRN、野火、洪水、危机管理、培训和教育、灾害分析

提纲

  • 第一章 简介
  • 第二章 问题描述
  • 第三章 M&S CDMP&CCI 决策支持系统
  • 第四章 技术架构
  • 第五章 危机管理和灾害响应集成开发环境
  • 第六章 灾难FOM开发
  • 第七章 项目结果

成为VIP会员查看完整内容
7

8月11日,“AI蛋白质预测奠基人”许锦波领衔的分子之心团队宣布,在蛋白质结构预测领域取得一项重要进展。基于AI的单序列蛋白质结构预测算法RaptorX-Single可以在不使用MSA(来自同源蛋白质的多序列比对)的情况下,从其一级序列直接预测蛋白质结构,并实现超越DeepMind AlphaFold2等方法的性能。同时,RaptorX-Single所采用的模型更轻量,参数不到Meta ESMFold 方法的三分之一。

“只用AI,不使用同源序列和共进化信息的单序列蛋白质结构预测将是行业发展的必然趋势,也是分子之心发展路线中的既定规划,”许锦波表示,分子之心团队已经在预测蛋白质结构方面实现了“三级进化”:从 AI+共进化信息+序列谱开始,到仅使用AI+序列谱,再到纯AI方法,“分子之心将使用基于AI的单序列蛋白质结构预测方法,进一步扩大人类在蛋白质结构预测领域的探索效率和边界”。

(分子之心RaptorX-Single算法架构示意图)

自2016年许锦波教授研发出RaptorX-Contact方法,开启AI蛋白质结构预测时代之后,DeepMind、Baker等研究团队相继推出了AlphaFold2、RoseTTAFold等AI蛋白质结构预测模型。AI在蛋白质结构预测领域的应用已从星星之火,掀起了燎原之势。但在推动生物行业巨大进步的同时,这些AI算法始终存在一个重大局限,即高度依赖MSA及其衍生的共同进化信息和序列谱来预测蛋白质结构,无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行高精度结构预测。

众所周知,自然界中的蛋白质折叠并不需要知道其同源序列及任何共进化信息。因此,从理论上来说,对蛋白质结构的预测仅从它的序列信息中即可实现。但目前的AI蛋白结构预测算法普遍需要提前搜索序列库、构建MSA才能进行结构预测。

这一固有路径存在两大局限。一是搜索蛋白质同源序列需要大量时间,随着技术的不断发展,序列数据库正在持续高速增长,时间和成本的投入巨大。比如,UniRef100目前有约3亿个序列,如果采用RaptorX、trRosetta、AlphaFold、RoseTTAFold等传统方法,使用同源序列和共进化信息作为输入,需要巨量的计算时间和算力成本。二是并非所有蛋白质都有足够多的同源序列,比如对于孤儿蛋白等小型蛋白质家族,基于MSA的预测方法始终表现不佳。

在此背景下,“不使用同源序列和共进化信息的AI蛋白质预测方法”在近两年成为了业界共同探索的新方向。分子之心团队在2021年就在Nature Machine Intelligence发表论文《Improved protein structure prediction by deep learning irrespective of co-evolution information》[1]指出不使用共进化信息,AI仍可以预测很大比例的自然界的蛋白质和复合物结构,以及几乎所有的人工设计的蛋白质结构。哥伦比亚大学、南开大学、Meta等国内外企业和研究团队,也都陆续发布了相关技术和论文。然而,目前的方法在速度、成本,以及孤儿蛋白结构预测上,仍然存在巨大的局限。

许锦波教授领衔的分子之心团队,基于自研的AI蛋白发现与设计平台MoleculeOS创造了一种独特的模型组合方式,提出了不明显使用同源序列和共进化信息的AI蛋白质预测算法RaptorX-Single。该算法由氨基酸编码模块(整合多个蛋白质语言模型)、修改后的Evoformer模块和结构生成模块组成。蛋白质语言模型均为目前已公开的预训练模型,且可以支持同时用多个模型输入,可以直接从一级序列预测蛋白质结构,而无需明确使用同源序列,预测准确性高且使用方便。

(在蛋白质7W5Z_T2和6O0I_A上,分子之心RaptorX-Single算法的性能明显优于基于MSA的AlphaFold2)

分子之心在论文中提出,相比全球已公开的同类算法模型的实验结果,RaptorX-Single算法在三方面实现了领先: 一是实现了孤儿蛋白等没有同源序列的蛋白质结构预测从0到1的突破,且测试结果远好于AlphaFold2。

(Orphan11数据集包含11个没有任何同源序列的孤儿蛋白,分子之心RaptorX-Single算法优于AlphaFold2和RoseTTAFold)

二是实现了比AlphaFold2更快的运行速度,极大提升了蛋白质结构预测效率。

(与AlphaFold2的运行时间比较,分子之心RaptorX-Single算法具有明显优势)

三是在预测结果相当的情况下,RaptorX-Single所用的蛋白语言模型参数仅43亿,远低于Meta蛋白质预测模型ESMFold高达150亿的参数量,极大降低了大算力芯片的高昂成本,对于该算法进一步产业化应用提供了可行条件。

虽然分子之心已经完成了AI蛋白质结构预测三级进化,“唯AI化”的蛋白质结构预测已经取得重要进展,但值得关注的是,分子之心仍在相关论文中指出,不管是自身的算法还是业界已发布的AI算法,目前仍然无法准确预测没有任何同源序列的孤儿蛋白的正确折叠。当前几乎所有声称基于单序列的深度学习方法仍然隐含地利用了蛋白质的同源信息。“我们正在开发一种方法,可以直接从其一级序列预测蛋白质结构,而无需隐含使用任何同源信息,这种方法才可以正确地预测孤儿蛋白的结构。”许锦波表示,分子之心正在对孤儿蛋白等特殊蛋白质结构预测进行深入探索。

但同样值得关注的是,RaptorX-Single等单序列蛋白质结构预测算法的出现,正在不断提升蛋白质结构预测相关难题的解决效率,拓宽人类对蛋白质结构探索的边界。随着算法持续进化,关于蛋白质复合物结构、蛋白质和其他分子的相关作用、抗体抗原相互作用等蛋白质结构预测的其他难题,将逐一得解。大分子制药领域,以及拥有更广泛应用场景和更具差异性市场竞争力的蛋白质设计领域,也将因此迎来更可预期的未来。 参考资料 [1] Xu, J., McPartlon, M. & Li, J. Improved protein structure prediction by deep learning irrespective of co-evolution information. Nat Mach Intell 3, 601–609 (2021). https://doi.org/10.1038/s42256-021-00348-5

成为VIP会员查看完整内容
2

本周我们收到投稿,由北大博士,现MIT Coley组博士后吴广启解读最近由MIT的Klavs F. Jensen与Timothy F. Jamison课题组共同在ACS Central Science上报道的自动化合成工作,文章题为Bayesian Optimization of Computer-Proposed Multistep Synthetic Routes on an Automated Robotic Flow Platform[1]。作者以小分子药物Sonidegib为例,在自动化合成平台上实现了对计算机所提出的多步合成路线的整体优化,验证了自动化技术开展计算机辅助的化合物合成的可行性。

内容: * 背景 * 方法 * 结果与讨论 * 结论

背景

近年来,机器学习辅助的药物发现展现出了巨大的应用潜力,虚拟筛选所发现的大量新颖的小分子结构有望为诸多疾病的治疗提供新的解决方案。但是目前许多由算法所设计的药物分子由于资源有限以及结构特殊等原因短时间内难以被合成,进而阻碍了对其效果的进一步验证。自动化技术早在上世纪就用于组合化学以及高通量药物发现等研究,随着计算机辅助的合成路线设计(Computer-aided synthesis planning,CASP)的不断成熟,人们开始认识到可以结合自动化实现结构更为复杂的分子的化学合成,利用其高效与可控性进一步加速药物发现。Jensen课题组曾于2019年报道了基于流动化学的自动化合成平台[2],在本文中作者利用这一平台对计算机提出的合成路线进行了验证与优化,展示了将自动化、机器学习以及机器人等技术的综合应用在加速合成与发现的应用潜力。

方法

图 1 (A)打分最高的逆合成路线分析,(B)最终所选取的合成路线,其中红色与绿色所标注的是需要进行优化的连续与离散变量 作者选取了小分子药物Sonidegib作为模型分子,利用开源的逆合成分析软件ASKCOS进行了逆合成分析(图1A),选取了打分最高的策略并结合之前的经验设计了反应路线(图1B),在该路线中有许多变量会影响反应的产率,比如反应温度,当量比,卤代烃种类以及碱的种类等,需要通过实验对其进行优化。他们优化了此前的自动化平台(图2),提升了其运行速度;该平台可以自动并行执行多步反应,同时配备有多种分析与分离模块,为多步合成路线的优化奠定了良好的基础。作者选用了开源的软件包Dragonfly进行贝叶斯优化,该软件包支持多种输入参数类型,并且能够进行多目标优化。

图 2执行合成的自动化平台 整个合成优化过程的示意图如图3所示。第一步反应为1与2之间的SAr反应,该反应可以通过在线LC/MS直接进行监测;随后硝基的还原反应在填充有Pd催化剂的流动床反应器中进行,由于第一步反应的产物可能会对催化剂的效果产生影响,他们首先对固相催化剂的形态进行了筛选优化,并最终选取了3D打印的静态混合器作为流动床的填料。反应结束后,通过膜分离器将气体与液体进行分离,所得产物4直接用于与5的缩合反应,最后的总产率通过LC/MS进行监测分析。LC/MS以及FTIR等在线分析模块的引入对分析反应变量对产率的影响起到了至关重要的作用。

图 3 反应(A)仪器与(B)优化流程示意图。

结果与讨论

由于催化剂稳定性等因素,整个合成流程分成两步进行优化:在进行SAr反应后,将产物3进行离线分离,再进行后续两步反应的优化。 图 4 对SAr反应的优化。(A)仪器示意图,(B)需要优化的参数,(C、D)优化结果。 1与2的SAr反应有5个参数需要进行优化(图4B),分别是:反应时间、温度、化合物1的当量、碱的当量以及卤代烃的种类,作者选取了3个指标作为优化的目标(objective),包括产率、产能以及成本。在10个小时内,该平台闭环自动执行了30次实验,首先探究了预设的9个实验以对优化空间进行初步的了解,随后算法根据已有信息提出能够同时优化3个指标的实验方案。从结果可以看出,虽然在初始阶段反应产率较高,但是产能与成本并不理想,随着优化的进行有部分实验表现出了高产能低成本的理想特点(#27)。具体分析显示氟代物在反应中表现出了更高的鲁棒性,而氯代物与溴代物在低温的情况下反应效果的波动较大。

图 5 对后续反应的优化。(A)仪器示意图,(B)需要优化的参数,(C-E)优化结果 随后,作者对后续两步反应进行了优化(图5),包括了硝基还原、液气分离以及酰胺缩合。他们发现如果在最后一步的缩合反应中如果同时加入HATU与4,那么会有明显的副产物产生,为了解决这一问题,需要首先将HATU与羧酸5混合进行活化。为此,他们充分利用了该流动平台灵活性的特点,在还原硝基的同时活化5,并运用FT-IR对反应进行监测,在该流程中对5个变量(活化试剂的种类,活化时间,3的当量,缩合温度以及时间)进行优化,并以产率与产能作为优化目标。在13小时内,该平台总共进行了15次实验,算法最终选择了HATU作为缩合试剂,成功地将产能由最初的1.6 g/h提升至7.4g/h。

结论

总结来说,本文作者在自动化合成平台中实现了计算机所设计的合成路线,充分展示了流动合成平台对多步反应进行协同优化的能力,为化合物的自动化合成奠定了坚实的基础。值得注意的是,本文的工作仍然有许多提升的空间,比如文中仍然需要将第一步的产物进行分离才能进行后续的优化,同时反应的通量也有待提升,这些问题也代表着自动化合成在今后发展的方向与机遇。


Therapeutics Data Commons(TDC)致力于推动机器学习和生命医学领域的融合,让更多的机器学习/生物医药研究者可以无门槛参与到实用且有价值的数据驱动模型开发中来。我们核心团队决定不定期suí biàn gē在本公众号分享领域相关的文章的解读,希望能对读者有所帮助,有任何反馈,或者有希望解读的文章与专题,欢迎在公众号后台留言!我们也欢迎相关专题的投稿,有兴趣的请关注!


作者:吴广启 审稿:黄柯鑫 符天凡 编辑:高文昊

参考资料

[1] Nambiar, A. M., Breen, C. P., Hart, T., Kulesza, T., Jamison, T. F., & Jensen, K. F. (2022). Bayesian Optimization of Computer-Proposed Multistep Synthetic Routes on an Automated Robotic Flow Platform. ACS Central Science.[2] Coley, C. W., Thomas III, D. A., Lummiss, J. A., Jaworski, J. N., Breen, C. P., Schultz, V., ... & Jensen, K. F. (2019). A robotic platform for flow synthesis of organic compounds informed by AI planning. Science, 365(6453), eaax1566.

成为VIP会员查看完整内容
4

传统基于帧的相机由于其紧凑、低成本以及能够提供丰富的外部感知测量能力,而已经成为基于计算机视觉的众多应用中的首选传感器。尽管这些传感器在该领域占主导地位,但它们在普通的、真实的场景中表现出了局限性,在这些场景中普遍存在有害的影响,如高速运动中的运动模糊或在光照不足的场景中过度/不足的曝光。

如今多种新型技术在挑战传统相机的主导地位,最近出现的受生物启发的事件相机由于其高速传感、高动态范围(HDR)能力和低功耗,为强大的感知能力开辟了令人兴奋的研究可能性。尽管它们具有很好的特性,但由于其独特的输出,事件相机带来了许多挑战:稀疏和异步的事件流,只捕捉到单个像素的增量感知变化。这种截然不同的传感方式使得大多数传统的计算机视觉算法在没有大量的事先调整的情况下无法兼容,因为它们最初是为处理以固定帧率捕获的图像序列而设计的。因此,文献中大部分现有的基于事件的算法都选择将事件流离散成批次,并按顺序进行处理,有效地恢复到类似于帧的表示,以试图模仿传统传感器的图像序列的处理。在传统强度图像的质量受到严重影响的情况下,这种事件分批算法明显优于其他基于框架的替代算法,揭示了这些新传感器的内在潜力并使其得到普及。然而,迄今为止,许多新设计的基于事件的算法仍然依赖于对事件流的离散化处理,这表明事件相机的全部潜力有待于通过更自然地处理其输出来加以利用。

这篇论文脱离了对传统的基于帧的方法的简单改编,而是主张开发新的算法,为事件相机综合设计,以充分利用其有利的特性。特别是,本论文的重点在于描述一系列新颖的策略和算法,这些策略和算法以纯粹的事件驱动方式进行操作,即在每个事件产生后立即进行处理,而不对事件进行任意批次的中间缓冲,从而避免了处理过程中的任何额外延迟。与较简单的事件分批处理相比,这种事件驱动的过程带来了额外的挑战,而这些挑战主要归因于以事件速度产生可靠结果的要求,这对它们在现实世界的应用中的部署产生了重大的实际影响。

本论文的主要内容是设计事件驱动的算法,用于高效和异步的特征检测和跟踪事件相机,涵盖了这种新兴传感方式的模式识别和数据关联的关键因素。特别是,本论文的一个重要部分致力于研究事件相机的视觉角落,从而设计出创新的事件驱动方法,以检测和跟踪角落事件。此外,本论文还研究了基于补丁的通用特征的使用和它们的事件驱动跟踪,以有效检索高质量的特征轨迹。本论文中开发的所有算法都是迈向完全由事件驱动的、基于特征的同步定位与地图构建(SLAM)管道的重要垫脚石。本论文扩展了最先进的事件驱动方法的既定概念,并进一步探索了事件驱动范式在现实单眼设置中的局限性。虽然所提出的方法仅依赖于事件数据,但所获得的见解对于未来将基于事件的视觉与其他互补的传感方式相结合的研究具有开创性意义。这里进行的研究为建立一个新的事件驱动算法系列铺平了道路,该算法高效、稳健、可扩展地运行,设想了基于事件的计算机视觉的潜在范式转变

本博士论文的结构是由三章组成的累积性论文,而作为本研究一部分的所有出版物都在附录中。具体来说,第1章提供了本论文在机器人学和计算机视觉领域的背景,介绍了传统的和基于事件的视觉传感器的基本原理,它们的优势和局限。此外,第1章还介绍了所要解决的研究问题的范围,以及相关主题的技术现状概述。第2章总结了导致本论文结论的所有已发表的稿件的内容,将其置于各自的研究背景下,描述其贡献,并建立它们之间的联系。第3章概述了我们的研究结果,并在我们的工作基础上提出了潜在的未来研究方向

成为VIP会员查看完整内容
7

01.新基建下电动汽车充电发展趋势及挑战 1.1电动汽车及充电基础设施发展历程 1.1.1全球电动汽车发展简介 1.1.2国内充电基础设施发展现状-- 1.2新基建赋予充电基础设施建设新内涵- 1.2.1新基建充电桩是以信息化为基础的新型基础设施 1.2.2充电运营商加大新基建充电桩投资与建设 1.3当前电动汽车充电所面临的主要挑战

02.智慧充电功能描述和应用场景 2.1智慧充电代际划分 2.2暂慧充电功能描述 2.2.1L1电气化阶段功能描述 2.2.2L2数字化阶段功能描述 2.2.3L3智能化阶段功能描述 2.2.4L4自动驾驶阶段功能描述– 2.3暂慧充电典型应用场景---- 2.3.1公变台区小区停车场智慧充电场景 2.3.2企业园区停车场智慧充电场景 2.3.3专变台区公共停车场智慧充电场景 2.3.4高速公路服务区智慧充电场景

03.智慧充电桩物联网方案架构和关键技术 3.1智慧充电桩物联网方案架构 3.2边绿计算技术 3.2.1定交与价值 3.2.2容器技术架构 3.3物联网联接技术 3.3.15G超宽通信 3.3.2 HPLC宽带电力线载波通信 3.3.3 Wi-Fi 6无线接入 3.4物联网平台 3.5物联网安全- 3.6AI人工智能

04.智慧充电桩物联网应用案例 4.1南网电动深圳民乐P+R充电场站应用案例 4.1.1项目背景及需求 4.1.2智能充电场站方案设计 4.1.3客户价伯 4.2南网电动深圳碧新路充电场站应用案例 4.2.1项目背景及需求 4.2.2智能有序充电方案设计 4.2.3客户价值

华为智慧充电桩物联网技术白皮书-完整版下载 报告序言

国家提出“新基建”以来,充电基础设施产业跃入人们的视线成为热门话题。充电基础设施作为充电网、车联网、能源网和物联网的连接器,不仅仅连接了充电网络和电动汽车,打通了物理世界与数字世界,还强力推动着交通变革和能源变革。随着海量资本、前沿技术纷纷涌入,充电基础设施在保持快速增长的同时也正在进入变革期,将重构产业的生态场景,一方面,它迎来空前繁荣、焕发出新的生机;另一方面,也面临着前所未有的市场竞争和淘汰。我们有理由相信,万亿级充电基础设施产业正迎来发展的黄金时代。

现阶段,在实践中暴露出来的电动汽车充电基础设施发展所面临的挑战和瓶颈主要集中在充电桩运维低效、充电安全保障不到位、用户体验亟需提升和桩网协同方式不完善共四个方面。我们需要找到经济、可靠和绿色的创新模式,破局增长之困。

为此,南网电动和华为以智慧物联网技术为载体,采用“云、管、边、端”的整体系统架构建设充电基础设施体系,通过“测、传、管、控”四类方法形成信息采集、边缘处理、云端一体化价值判断和挖掘体系,以智慧为能源流保驾护航,促进充电基础设施与海量智能体全息链接,汇聚无界数字生态。

本白皮书由南网电动和华为共同编制,融入两家智慧能源、物联网、先进信息通讯和能源系统架构设计等方面的技术,描绘充电基础设施基于数字引擎强大的连接和云计算能力,结合“四网融合”应用场景的战略思考。以物联网为载体,聚合充电网、车联网和能源网推动产业链数字化进程,更绿色地满足多元化的用户需求,支撑可再生能源与多元化储能协同发展,重塑数字时代电网新业态。

在新基建的能源绿色产业链风口尖端,我们希望以智慧充电桩物联网为载体,以四网融合为根基,以建设智慧能源、智慧交通、智慧生活、智慧城市为目标,打造卓越的电动汽车服务运营商、电动汽车产业价值链整合商、绿色能源生态服务商。本白皮书是南网电动与华为的一次创新实践,是一份思考的分享,如有不完善、不全面之处,恳请各位同行批评指正,也期待有更多的生态伙伴与我们一起携手,合力驱动美好未来。

成为VIP会员查看完整内容
10

来自MIT Gilbert Strang教授的矩阵经典图解,收藏!

85岁MIT教授Gilbert Strang《线性代数》2020视频课,不怕学不会的线代

本笔记试着用直观的方式把《线性代数》中介绍的重要概念表达出来本课程旨在从矩阵分解的角度促进对向量/矩阵计算和算法的理解。它们包括列行(CR)、高斯消去(LU)、Gram-Schmidt正交化(QR)、特征值与对角化(QΛQT)和奇异值分解(UΣV T)。

https://github.com/kenjihiranabe/The-Art-of-Linear-Algebra

成为VIP会员查看完整内容
19

计算上下文理解指的是agent融合不同信息源进行决策的能力,因此,通常被认为是人工智能(AI)等复杂机器推理能力的先决条件。数据驱动和知识驱动方法是追求这种机器意义生成能力的两种经典技术。然而,虽然数据驱动的方法试图通过在现实世界中的观察来模拟事件的统计规律,但它们仍然难以解释,而且缺乏自然地结合外部知识的机制。相反,知识驱动的方法结合了结构化的知识库,使基于公理原则的符号推理成为可能,并产生更多可解释的预测; 然而,它们往往缺乏估计推断的统计显著性或鲁棒地适应输入中的扰动的能力。为了解决这些问题,我们使用混合AI方法作为综合两种方法的优势的一般框架。具体而言,我们继承了神经符号的概念,将其作为一种使用领域知识来指导深度神经网络学习进程的方法。领域知识以多种形式出现,包括:(i) 图模型,它描述了实体之间的关系,如依赖、独立、因果、相关和部分相关; (ii) 常识性知识,包括空间知识、物体的物理属性、语义关系和功能知识; 专家智能体以演示或软标签的形式提供特权信息; (iv) 习得的行为原语和先验,这些行为原语和先验可能构成可推广和可转移的任务执行;以及(v)辅助任务、目标和约束条件——为约束优化精心选择。

无论可用的领域知识类型是什么,相同的实际目标仍然是:学习有意义的神经表征,用于下游感兴趣的任务。神经表征学习的潜在目标是在统计上识别agent输入数据或观察中变化的最佳解释因素,通常需要对输入中多种模式或观点之间的互补性的直觉。虽然已经有很多关注于学习特定任务的有效神经表征,然后将学习到的表征转移或适应其他任务,相对较少的重点放在有各种类型的领域知识的表征学习。这些知识可用于恢复潜在生成过程的信息,设计学习问题的有效建模策略,确保模型的可转移性或泛化性,或理解视图之间的互补性。本文研究了将上述类型的领域知识与神经表示相结合的方法,以提高以下问题领域的模型性能和通用性:神经常识推理、多模态机器人导航和自动驾驶。本文提供了一系列工具、方法、任务、国际AI挑战和排行榜、数据集和知识图;此外,这项工作还成功组织了两场关于自动驾驶安全学习的国际研讨会。

成为VIP会员查看完整内容
12

来自MIT等最新《可解释AI: 深度神经网络内部结构解释》综述论文, (1)为现有的内在可解释性方法提供一个全面的参考资源,(2)为持续的、以安全为重点的研究提供指导方向

在过去的十年里,机器学习的规模和能力都有了巨大的增长,深度神经网络(DNNs)正在越来越多地应用于广泛的领域。然而,DNN的内部工作原理通常很难理解,这引起了人们对使用这些系统的安全性的担忧,因为他们没有严格了解它们的功能。在这项综述中,我们回顾了解释DNN内部成分的技术,我们称之为内部可解释方法。具体而言,我们回顾了解释权重、神经元、子网和潜在表示的方法,重点关注这些技术如何与设计更安全、更值得信赖的AI系统的目标相关联。我们还强调了可解释性与模块化、对抗鲁棒性、持续学习、网络压缩和人类视觉系统研究之间的联系。最后,我们讨论了关键的挑战,并讨论了未来在人工智能安全可解释性方面的工作,重点是诊断、基准测试和鲁棒性。

https://www.zhuanzhi.ai/paper/c6db46946cd96a10ab425120dacad09a

过去十年深度学习的一个显著特征是规模和能力的急剧增长[124],[228],从2010年到2022年,机器学习系统的训练计算增长了100亿倍[227]。与此同时,深度神经网络(DNNs)越来越多地用于安全、可预测的行为至关重要的环境中。如果继续快速发展,自动化的宽领域智能有可能对社会产生高度影响[33],[51],[179],[195],[210],[239]。考虑到这些发展,从业者能够理解AI系统如何做出决策,特别是它们的失败模式是至关重要的。人工智能系统最典型的评估标准是它们在特定任务测试集上的表现。这引起了关注,因为在测试集中表现良好的黑盒并不意味着学习到的解决方案就足够了。例如,部署分布可能不同于测试分布,并且/或者任务目标的规范可能导致意外行为(例如[135],[147])。即使用户意识到不足之处,系统的黑盒特性也会使修复缺陷变得困难。因此,建立安全可靠的人工智能系统的一个重要步骤是拥有检测和解决这些缺陷的技术。为此,拥有一套多样的严格解释AI系统的技术将是有价值的(见I-A)。

我们将可解释性方法定义为可以用人类可以理解的术语描述系统行为的任何过程。这包含了DNN文献中广泛的技术,所以在本文中,我们特别关注对理解内部结构和表示有用的方法。我们称之为内部可解释方法。我们讨论了这些方法的分类,提供了文献综述,讨论了可解释性和深度学习中的其他主题之间的关键联系,并总结了继续工作的方向。我们的中心目标有两方面: (1)为现有的内在可解释性方法提供一个全面的参考资源,(2)为持续的、以安全为重点的研究提供指导方向

可解释性技术的一个主要动机是理解模型的潜在问题。因此,可解释性方法将与构建更安全、更值得信赖的人工智能系统高度相关。

可解释性技术应通过其产生新颖、有效和可操作见解的能力来评估。这可能是困难的,而且在文献中评估常常做得很差。需要严格的测试和基准来评估解释,应该包括重新发现DNN的已知缺陷。

可解释性、模块化、对抗鲁棒性、持续学习、网络压缩和与人类视觉系统的相似性之间有许多丰富的联系。

未来工作的引人注目的方向包括使用人类输入的可扩展方法、逆向工程系统、检测潜在知识、基准测试和研究技术之间的交互。

可解释性对更安全人工智能的重要性

对于AI系统来说,它们需要正确的目标,并且需要有效地优化这些目标。主要是第二个需求,可解释性技术为构建更值得信赖的AI提供了优势[115],[180]。我们在此概述主要动机。

展示失败: 揭示为什么一个模型不能产生正确的输出,让研究人员能够洞察失败是什么样子的,以及如何检测它们。这些信息可以帮助研究人员避免这些问题,并帮助监管机构为部署的系统建立适当的规则。

修复bug:通过理解故障和/或生成利用它的例子,可以重新设计、微调和/或对抗性训练网络,使其更好地与用户的目标保持一致。

提高基本理解: 通过向用户提供更多关于DNN如何学习的知识,可解释性技术可以开发改进的模型或更好地预测人工智能的进展。

确定责任:具有描述失败的能力对于在误用或部署失败的情况下确定责任是至关重要的。

“显微镜式”AI: 严格理解AI系统如何完成任务可以提供额外的领域知识。这一目标被称为“显微镜”AI[115],它可以允许对更容易理解的模型进行逆向工程。这对于研究在某些领域具有超人性能的系统尤其有价值。

对于实现上述目标的可解释性技术,它们应该满足某些需求

准确性-验证,而不是说服: 可解释性技术应该给出模型正在执行的计算的正确图像,而不仅仅是看似合理地这样做。给用户错误的安全感是非常有害的。一个常见的例子是输入归因方法,它经常对模型[4]的决策提供误导性的解释[64]。此外,解释应该伴随着不确定性估计。

人类的可理解性: 另一方面,由可解释技术产生的解释应该易于人类理解。从某种意义上说,对模型最准确的“解释”就是返回它的参数,但这对人类来说几乎总是难以理解的。因此,准确性应该与可理解性相平衡。

深度: 内部可解释性技术的“深度”指的是它解释复杂子流程的能力。很可能DNN中的某些特征或计算比其他特征更容易被人类自然理解,这就增加了对模型理解过于简单的可能性。解释不应该偏向于模型中容易解释的部分。

泛化性: 解释应该能够概括到不同的例子。这可以让他们帮助诊断发生在训练/验证分发之外的故障。

竞争力 :可解释性技术不应导致竞争力的显著下降,如性能下降、计算需求增加或难以在现代深度学习框架中使用。竞争缺陷也可能导致“价值侵蚀”,即不采用更安全的人工智能实践,而采用更具竞争力的模型。

产生可操作的见解:可解释性方法的最终目标应该是产生有用的见解。关键是解释可以用来对模型做出和验证可测试的预测。有两种方法可以做到这一点:使用解释来指导新的对手的设计,或者手动微调模型来诱导可预测的变化。这与准确性密切相关;可解释性方法的结果应该能够明确地洞察模型的行为。在第VI节中,我们讨论了可操作的见解的重要性,以及现有的工作如何典型地无法证明它们。

我们的重点是DNN的内部可解释性方法。值得注意的是,模型无关技术、黑箱技术、输入归因方法、神经符号方法和“优秀的老式AI”超出了本次综述的范围。这并不是说它们在构建安全人工智能方面的价值低于我们所关注的方法——我们相信多样化的技术是至关重要的。然而,我们专注于内部可解释性方法(1),因为该综述的可跟踪范围,(2) 因为它们对某些目标(如理解如何修改模型、反向工程解决方案,以及检测通常不会出现在系统部署行为中的潜在知识)有很好的装备。也请参阅之前对可解释性工作的一些调查和评论,它们与我们的[3],[58],[60],[68],[95],[118],[136],[173]-[175],[208],[215],[218],[219]有重叠。然而,这项综述的不同之处在于其对内部可解释性、人工智能安全以及可解释性和其他几个研究范式之间的交叉的关注。参见我们在第VI节的讨论。在接下来的章节中,我们根据DNN的计算图解释的部分来组织我们对技术的讨论: 权重、神经元、电路或表示。图1描述了内部方法是如何这样组织的。除了这种分解,可解释性技术还可以按照它们是在模型训练期间使用还是在模型训练之后使用来划分。内在可解释性技术包括训练模型,使其更容易学习或具有自然的解释。Post hoc技术的目的是在模型经过训练后对其进行解释。我们在分段层次上根据方法是内在的还是事后的来划分方法。这两种方法并不相互排斥。

成为VIP会员查看完整内容
27

如今,很难想起有哪个领域、系统或问题没有使用或嵌入人工智能来解决。从AI发展的早期阶段开始,其技术和工艺就被军事力量成功地用于不同的军事行动中。由于网络空间代表了最后一个官方认可的作战战场,它也为在其内部或通过其进行的军事行动实施人工智能解决方案提供了一个直接的虚拟环境。然而,规划和开展基于人工智能的网络军事行动仍处于发展的初期。因此,从业者和学术界都需要付出努力,因为AI的使用可能会产生重大的影响,这就要求这种智能解决方案的输出可以向开发它们的工程师和他们的用户(例如军事决策者)可解释。因此,本文首先讨论了军事网络行动中目标定位的可解释人工智能的含义,接着分析了在不同目标定位阶段嵌入人工智能解决方案(如智能网络武器)的挑战,并将其结构化为设计框架中的相应分类法。它通过跨越目标开发、能力分析和目标交战的瞄准过程来实现这一目标。此外,本研究认为,特别是在这种无声无息、以难以置信的速度进行的作战中,相关的军事力量意识到以下几点是非常重要的。第一,嵌入的智能系统所做的决策。第二,不仅意识到,而且能够以适当、有效和高效的方式解释从人工智能解决方案中获得的结果。由此,本研究得出了可能的技术和以人为本的方法,促进XAI解决方案在军事网络行动中成功实施目标定位

关键词:网络行动、网络武器、军事行动、目标定位、人工智能、可解释人工智能

1. 简介

自17世纪以来,基于经典的OODA(观察、定向、决定、行动)循环进行了一系列的战争,跨越了地方战争和世界大战,并进入了今天和未来的战争。因此,“观察”方式从望远镜(17世纪的战争)转移到无线电和雷达(二战),再到网络(未来的战争)。“定向”从几周(17世纪的战争)转移到几小时(二战),并将是连续的(未来的战争)。“决定”从几个月(17世纪的战争)转为几天(二战),并将是即时的(未来的战争)。“行动”根据季节(17世纪的战争),转变为几周(二战),并进入到几分钟(未来的战争)(Lehto,2016)。这些发展是可能的,因为科学界和行业专业人士提出并继续推动重大技术进步。在这些发展中,人工智能找到了自己的位置。不管是用于规划优化、目标识别还是效果评估,人工智能在网络空间处理的不同预测、模拟或探索问题上都显示出令人印象深刻的结果(Samek & Müller,2019)。在这里,行动是利用网络武器/能力来实现其内部和/或外部的军事目标(Maathuis, Pieters & Van den Berg, 2018a),对目标和附带实体产生(未)预见的(直接)影响(Maathuis, Pieters & Van den Berg., 2018b)。与其他军事行动相比,网络军事行动是在沉默中高速进行的,允许早期的情报收集和准备,并意味着根据目标的脆弱性、性质、目的和背景建立网络武器的不同选择。在这些时刻,所做的决定和考虑的影响,必须对相关的利益相关者来说是清楚和可以理解的。

机器学习,特别是深度学习,是人工智能不断发展和成功的核心。虽然这些范式的改进、可及性和使用代表了一种思维方式的改变和以数据为中心的应用的转变,但也意味着理解和处理所做的决定和模型获得的结果:这是一项复杂而困难的任务。然而,最近,这个方向的一个起点是DARPA计划(DARPA, 2016),旨在通过一套考虑可解释性-性能权衡的设计方案来创建人类可理解的人工智能模型。这条研究路线引起了不同领域的学术研究者和从业者的兴趣(Adadi & Berrada,2018),但目前还缺乏XAI的理论和一个普遍认同的定义(Samek & Müller,2019)。此外,特别是在这个领域,对于目标定位来说,重要的是决策者意识到哪些数据和如何使用数据,因为在这个战场上,数据可能是稀缺的,或者可能来自几个战场,了解模型在网络空间内部和外部采取哪些决策,并意识到提出的结果,以便在作战领域以最小或无风险的方式适当整合和部署,因为由于网络空间的特点,如相互连接和动态性质,这种风险及其相应的影响可以在数字和物理上大规模地经历。鉴于上述方面,在网络军事行动中理解和应用XAI是一项复杂的任务,必须从多个角度加以解决。在这个问题上,据我们所知,XAI还没有在军事网络背景下被定义和解决,因此我们旨在解决这个问题,有以下目标

  • **为军事网络行动中的XAI提出一个定义和共同理解。

  • 通过技术-军事和社会-伦理的视角,解决军事网络行动中XAI的挑战,重点关注目标定位过程的第一个阶段。

  • 提高决策者对设计和实施用于军事决策支持的XAI模型的认识水平和责任感,并扩大军事网络领域的范围。

  • 为设计军事网络领域的XAI战略、标准和方法做出贡献。此外,强调对当前和未来决策者进行XAI教育的必要性。

为了实现这些目标,在广泛的文献回顾和分析基础上进行了多学科研究。此外,本研究的贡献有两个方面。首先,合并并强调在掌握、开发和评估XAI时应考虑的各个方面,重点是军事网络行动中目标定位的三个阶段。其次,作为一个设计框架,为决策者提供具体的发展建议。

本文的其余部分结构如下。第2节讨论了关于XAI的理论和实践方面的相关研究。第3节处理了目标定位过程,同时反思了本研究所关注的阶段。第4节讨论了提出XAI模型的必要性,反思了不同类型的参与利益相关者,分析了良好解释的特征,并提出了该领域中XAI的定义。第5节考虑了不同类型的解释、解释方法、以及解释方法的评价标准和机制。第6节探讨了XAI在军事网络行动中的目标定位方面的挑战。第7节对本研究的结果进行反思,并讨论了未来的想法

2. 相关研究

在过去的十年中,人们对发展人工智能技术的普遍兴趣大大增加,这对于在不同领域提出XAI的理论和实践方法来说,是非常有意义的。

关于XAI的含义和发展,Arrieta等人(2020)总结了以前的工作,认为XAI被广泛认为是人工智能模型实际部署的一个关键特征,并将这种模型的受众定位为理解它时的一个关键因素。因此,其中一个思考点是XAI所涉及的受众和利益相关者。Preece等人(2018)将可解释性和可诠释性没有达成共识的事实归结为不同的利益相关者群体必须处理这些问题,并进一步描绘了这种观点的重叠和不重叠之处。此外,Samek、Wiegand和Muller(2017)认为需要XAI的原因如下:系统验证、从系统中学习以及遵守立法。Gerlings, Shollo & Constantiou (2020)使用社会技术视角来分析XAI实施的技术和治理方面,例如,遵守法规和GDPR以及偏见和误解的最小化。其中,Mohseni、Zarei和Ragan(2021)分析了不同的解释以及模型应该解释的内容,进一步推进了一系列方法,例如,使用用户满意度和解释有用性等标准衡量的解释满意度。因此,Vilone和Longo(2020)对解释类型、解释方法、评价策略以及未来的研究思路(如人在回路中的方法和交互式接口)进行了广泛回顾。作为XAI的发起者,DARPA(2016)建立了一个成功的计划,该计划在2018年最终完成,不同的团队在XAI模型的设计、实施和评估方面从事技术工作,还有一个团队致力于寻找、定义和应用解释的心理学理论。此外,Hamon, Junklewitz & Sanchez (2020)讨论了欧盟委员会关于人工智能模型透明度的愿景:i) 使用模型的技术原理加上其设计使用的数据表示法来记录人工智能处理链,ii) 人工智能模型的可靠性,这与它们避免因边缘案例或恶意意图而失败或故障的能力有关;iii) 模型中的数据保护,通过技术和组织控制维护安全和管理风险。此外,人类有权利获得GDPR第71条所强调的解释(Hamon, Junklewitz & Sanchez, 2020)。此外,美国国防部为维护法律、道德和政策,对应用于(非)战斗功能的人工智能采用了一系列道德原则:负责任、公平、可追踪、可靠和可治理(美国国防部委员会,2019)。

作为应用,Streich等人(2020)分析了XAI在解决与联合国可持续发展目标相对应的生产可持续农业系统的技术问题方面的潜力,Shukla、Fan和Jennions(2020)为建立用于综合车辆健康管理的XAI提出了指导方针,该指导方针由人类专家使用子系统的健康评估信息及其飞机效应来理解。在医疗领域,Holzinger等人(2017)解决了开发方法的可能性,即重现XAI模型在不同过程中采取的机器决策过程。在工业领域,Guo(2020)认为可解释性使信任成为可能,即6G技术的一个关键质量,因为它正在管理广泛的关键任务服务,如自动驾驶,Lai等人(2020)利用最终状态粒子的能量动量四向量编码的信息,实现了一个具有高能粒子碰撞的基础物理学的XAI模型,使用GANs。

军事领域,Bistron & Piotrowski(2021)讨论了嵌入人工智能技术的应用及其对安全感知的影响,并表明军事应用是负责人工智能发展的应用之一。此外,Preece等人(2019)以城市地形分析和增强资产互操作性为例,将多领域行动中的ISR要求与建立XAI模型以产生强大的人机决策的需求进行了对比,Hepenstal和McNeish(2020)认为,在设计军事和安全XAI解决方案时,应仔细考虑所建模的问题的背景和性质以及涉及的人类。特别是,Maathuis, Pieters & Van den Berg(2020)提出了一个多层模糊XAI模型,用于军事网络行动中的效果评估和决策支持,Keneni等人(2019)提出了一个XAI模型,描述了无人机在预定任务中的决策逻辑。

这些资源捕捉到了在军事网络领域定义和提出人工智能解决方案时应该考虑的重要方面,但并不是为其量身定做的,这对于建立可信任、可解释和可问责的军事智能系统是必要的,这些系统在执行网络军事行动时设计、实施和使用,其效果可能因其性质而跨越地理或数字边界。因此,本文的目的是解决这一知识差距,提出军事网络领域的XAI的定义和模型,思考其相应的挑战,并进一步讨论可能的解决方案。

3. 军事目标的确定

为了打击对手和实现目标,网络军事行动是通过以多种方式影响其目标(嵌入ICT元素或直接的网络目标)来进行的,例如,破坏通信过程或改变受众的行为。在这个过程中,在建立基于人工智能的解决方案时,应该考虑到双重用途的性质、连接性、动态性、不确定性和网络空间中存在的归属问题等特殊性和挑战,这也是开发基于XAI的解决方案的直接原因。

开展网络军事行动的核心是军事目标选择过程和相应的交战规则(RoE),这些规则规定了每次行动中的交战情况和限制(北约,2016年;美国陆军,2018年)。对目标选择过程的定义是:在考虑作战要求和能力的同时,选择目标并确定其优先次序,并对其作出适当的反应。这个过程包含六个阶段,如图1所示,下面是总结(北约,2016;美军,2018;Boothby & Schmitt,2012):

  • 第一阶段(指挥官的意图、目标和指导):确定明确的目标以及在哪些情况下和行动中应该实现这些目标,提供政治和战略指导,创建进一步的行动任务,并提名目标。

  • 第二阶段(目标开发):对符合条件的目标进行分析、审查、验证,并确定优先次序,从而形成一份优先目标清单。其中还包括附带损害估计和情报损益评估,这意味着指挥官可能不会为了消极影响这一过程而与目标交战,但会在目标选择过程中从结果中受益。

  • 第三阶段(能力分析):对目标进行分析,并与产生预期效果的能力相匹配,同时尽量减少附带损害,即评估相称性和进一步制定CoA(行动方案)。

  • 第四阶段(指挥官的决定、部队规划和分配):根据获得的结果,考虑到任何相关的限制和约束,进一步分配给特定的部队进行规划和执行。

  • 第五阶段(任务规划和部队执行):在战术层面进一步规划和执行任务,同时进行最后的目标PID(正面识别),并进行其他信息检查和避免或减少附带损害。

  • 第六阶段(评估):对所产生的效果进行评估,然后实现所确定的目标,进一步促进更广泛的评估,为其他行动提供投入,并吸取教训。

图1:军事目标选择过程

经历这些阶段,大量的程序、方法和模型被应用于合并不同来源和类型的数据,即系统、过程和人。无论数据是否被进一步处理并用于建立模拟、预测或综合智能模型,模型的决定、输出和可能的影响都应该被军事决策者正确理解和论证。正是在这种情况下,考虑到XAI的挑战和可能的解决方案,我们进一步定义和分析了XAI。

4. 界定可解释的人工智能

尽管它听起来是过去十年中人工智能领域的主要议题之一,但XAI在五十年前就已经有了根基。从那时起,智能系统的可解释性和可诠释性的重要性实际上增加了(Hansen & Rieger,2019),并且由于机器学习和深度学习的不断发展而重新成为一个焦点,虽然深度学习在众多任务中证明了其性能,但本质上仍然无法以人类可理解的方式解释其决定。换句话说,正如Preece等人(2018)所强调的。"这不是一个新问题,也不曾被认为是一个已解决的问题"。但是,为什么在军事网络行动中使用XAI?更具体地说,XAI的原因和目标是什么?我们认为有以下原因

首先,使用智能系统的军事网络行动不仅对其目标,而且对附带资产都可能产生(不)直接、(非)预期的影响。特别是在非预期影响方面,正确理解目标在物理和数字上的定位,以及在早期作战状态下哪些漏洞更容易被利用,情报的得失,以及如何选择和准备交战(第二-第三阶段),可以促进第五阶段智能网络武器(基于XAI)的成功部署。

其次,再加上了解为什么以及如何实施和使用人工智能模型,对于理解模型做出的决定并进一步将其传达给相关的系统、流程和人员非常重要。特别是,如果在第三阶段对网络武器进行了适当的匹配,那么它的选择应该为第四至第五阶段的执行计划和参与提供相应的论证和沟通。

第三,由于锁定目标是一个由多个团队进行的持续过程,重要的是所使用的人工智能模型(如目标定位、网络武器选择和效果估计)的功能机制和决策是合理和透明的,以促进和加强相关实体的控制、信任和问责(Adadi & Berrada, 2018; Burkart & Huber, 2021)。此外,这允许与法律检查、战略目标和社会道德价值观直接对应和映射。

而且,根据目标、活动以及考虑的粒度,理由清单还可以继续下去,并评估网络空间的不确定性、动态性和强大的互连性方面。然而,正如这些原因所反映的,XAI首先是关于理解,同时保持高水平的性能(Gunning & Aha, 2019),其次是以对人类友好的方式保持适当的沟通,第三是关于所使用系统的理由、信任和责任。正如Russell & Norvig(2021)所认为的。"解释不是决定,它们是关于决定的故事"。因此,我们采取(Molnar, 2020)的立场,即人类 "渴望在世界中找到意义",在评估了牛津(Oxford Dictionary, 2021)和剑桥(Cambridge Dictionary, 2021)字典中没有对 "可解释"一词的定义后,我们看到最接近的术语是 "解释",意思是一个理由,一个事实,或一个对事物的借口。此外,对于军事网络行动中的XAI的定义,我们与(DARPA,2016;Arrieta等人,2020;Doran等人,2017)的定义观点一致,认为XAI是:

网络军事领域的XAI = 人工智能的一个子领域,涉及方法、技术和工艺的设计、开发和使用,为嵌入不同网络军事系统和流程的人工智能系统的功能机制、决策和结果提供理由和事实

这个定义可以简化为一系列(网络)agents,它们相互作用,并利用一系列工具来产生行动。在图2中,我们说明了这个定义,同时解释了其组成部分。

agents:在网络军事行动中参与设计、开发和使用XAI的实体。看到他们在这个过程中的背景、性质、作用和参与情况,他们可以被划分为(DARPA,2016;Meske等人,2021;Arrieta等人,2020;Preece等人,2018;Hepenstal & McNeish,2020;Hamon等人,2020):

  • 利益相关者:参与以下工作的实体:①参与模型的设计、标准化和认证过程的实体,即军事法律和人工智能监管者,他们也应该整合道德方面的内容;②参与模型的理论化、设计、开发、调试、验证和升级过程的实体,即人工智能和军事网络工程师;③参与组织内外人工智能系统的设计、使用和确保合规的过程的实体,即人工智能管理者和网络军事决策者。

  • 受众:直接参与利益相关者所做的过程的实体,即是参与性受众或终端用户,即他们代表了其他受众。

工具:agents在网络军事行动中设计、开发和使用XAI的方法、技术和工艺(DARPA,2016)。

  • XAI模型是由利益相关者和(也许)参与性受众开发的AI模型。

  • XAI界面是产生解释的界面,即向受众提供行动。相应地,它回答了一些问题,如为什么、如何、何时?如何做或如何解决或纠正错误?何时成功,何时不成功,或何时会失败?

图2:网络军事目标中的XAI,基于(DARPA,2016;Meske等人,2021)。

为了评估内部实施的军事网络行动的相称性,所有利益攸关方合作建立一个XAI网络武器,通过直接或开发的XAI界面(取决于技术),以人类可以理解的方式评估预期的附带损害和军事优势,并提供一个决定,即这种交战是相称的还是不相称的,对受众即军事决策者来说是可以理解的,而且是透明的。如上所述,一个合理的问题将是。为什么是相称的/不相称的?如果与目标交战的决定是否定的,那么对目标的位置、弱点和联系的明确解释,即对正在进行的或未来的行动有利的信息,会使情报的得失评估受益。那么,一个相关的问题将是:"什么信息可以进一步利用?哪些信息可以被进一步利用?

5. 可解释的人工智能方法及其评估

在分析有关所涉及的利益相关者和受众的作用的解释时,可以考虑解释方法的意图,指的是回答哪个问题,以及使用解释的人的意图,即这个解释应该如何使用和用于什么(Samek & Müller,2019)。此外,Islam, Eberle & Ghafoor (2020)认为,解释应该具有表达性、透明性、可移植性、准确性、保真性、一致性、稳定性、可理解性,并包含一定程度的重要性。因此,我们考虑用以下标准对XAI的现有方法进行分类(Vilone & Longo,2020;Samek & Müller,2019;Arrieta等人,2020;Kolbasin,2018)。

  • XAI模型是由利益相关者和(也许)参与性受众开发的AI模型。

  • 问题类型:反映所研究的问题,例如分类或回归。

  • 范围:解释的目标:①局部,意味着模型的每个推理都得到了解释,例如,比例性评估的具体规则;而②全局,意味着模型的完整推理过程作为一个整体是透明和可理解的,例如,比例性评估的一般机制。

  • 阶段:产生解释的时刻:i) 前期方法意味着从一开始和在训练阶段使用具体的例子进行解释,例如目标具有的脆弱性或决定与目标交战是否不相称的具体规则,而ii) 后期方法意味着在测试阶段使用外部解释器模仿模型的行为,例如解释目标与网络武器交战或相称性评估的合理性。这些方法可以是:a)适用于任何类型的模型,模型被视为一个黑盒,解释是在不检查内部参数的情况下产生的;b)特定的模型,仅限于嵌入特定模型逻辑的特定类型的模型。

  • 输入数据:根据可用性、数量和数据类型(如数字、分类)等方面,考虑解释的内容。

  • 输出格式:根据所需结果的格式(数字、规则、文本、视觉或混合),考虑解释。

  • 提供解释的时刻:i) 在建立模型之前,使用不同的可视化方法进行探索性数据分析,了解分布情况或特征分析,例如,可以对一系列目标的多个入口进行分析,找出它们的重心,并在第三至第四阶段建立相应的网络武器;ii) 在建立模型期间,直接为决策树或线性模型,例如。 例如,在第四至第五阶段,可以明确提供比例性的评估及其相应的规则和结果,以及iii)在建立模型后,对基于神经网络和SVM的模型解释模型、其结果和内部过程,例如,在第二阶段为可能的目标检查进行网络分析。

然而,人们需要确保人工智能模型的行动不仅符合它们的目标,而且实际上也符合人类的目标(Russell,2019),以认为它们是有益的和可信任的。这些事实应该在人工智能模型具有支持性或决定性作用的两种情况下得到验证(Samek & Müller,2019)。相应地,解释的质量取决于利益相关者/受众如何看待它们,这取决于他们的背景、目标、期望、环境等(Atakishiyev等人,2020)。因此,基于(Swartout和Moore,1993;Walsh等人,2021),我们考虑用以下标准来评价人工智能模型的解释。

  • 适合性、充分性和保真度的衡量:所提供的解释应该是适合的、充分的,并能代表系统的行为。

  • 有效性的衡量:所提供的解释对于系统的利益相关者和受众来说应该是清晰、有用和可理解的。

  • 绩效的衡量:所提供的解释应该改善利益相关者和听众对系统的现有看法、信念、以及可能的能力,同时确保这不会使系统开销过大或速度过慢。

6. 可解释人工智能的挑战

作为任何一种颠覆性技术,XAI在军事网络领域提出了一系列的挑战。为了构建和描述这些挑战,我们考虑用社会技术视角来捕捉技术和社会伦理要素。因此,考虑了以下挑战:

  • 不充分的(训练)数据(Svenmarck等人,2018年):不充分或没有代表性的(训练)数据对模型提供的结果有直接影响,这可能会产生重大的负面影响,例如,考虑错误的目标参与。

  • 数据所有权、保护、共享、可用性和质量(Maxwell,2020;Stahl,2021):数据不仅应该掌握在其所有者手中,他们有责任在必要时保护或分享给谁,而且应该在不同阶段可用,在处理和建模阶段保持其质量。

  • 在开发和测试中失去了可调试性和透明度(谷歌,2020)。

  • 性能、维护和稳健性成本(Core 等人,2006;Gunning & Aha,2019;Walsh 等人,2021)。

  • 缺乏对利益相关者和受众的控制(谷歌,2020)。

  • 人工智能安全攻击(Svenmarck等人,2018;Morgan等人,2020):由于人工智能模型是基于软件的系统,它们很容易受到意志坚定的对手的攻击,这些对手可以进行例如中毒、对抗性或差异性攻击。例如,通过改变用于目标交战的训练数据,另一个物体可能被交战和/或产生的附带损害可能高于第三至第五阶段的预期。

  • 真实设置的镜像环境(Stahl,2021):用于在现实条件下评估和模拟模型,利用不同的模拟设置,如测试床和数字孪生解决方案,捕捉实际的方面。

  • 与战略和行动需求相一致(Walsh等人,2021年):由于开展网络军事行动是由具有不同专长的团队成员进行的一系列过程,他们的目标和方法之间的一致性有时可能具有挑战性。

  • 与商业发展和标准保持一致(Hoadley和Lucas,2018年;Walsh等人,2021年),例如,行业相关的网络系统和解决方案。

  • 与其他军事领域的现有系统和新兴能力(Walsh等人,2021年)相结合。

  • 需要制定相应的国际政治、法律和军事举措、标准、战略和方法,并进一步遵守它们(Deeks,2019;Hoadley & Lucas,2018;Samek & Müller,2019;Morgan等人,2020)。

  • 投资于教育、建设人的能力和研发(Alonso,2020;Morgan等人,2020)。

  • 培育和建设人工智能的数字生态系统(Morgan等人,2020年)。

  • 创造国际竞争、国家不对称和权力不平衡(Hoadley & Lucas, 2018)。

  • 对人类价值、健康、环境等产生负面影响。

  • 由于网络空间的动态性和冲突的不可预测性特征,造成不确定性(Maathuis, Pieters & Van den Berg, 2016)。

7. 结论

人工智能的口号不断从发展越智能的系统越好(Russell,2019)转变为发展越有用、可解释、负责任的智能系统越好。这对来自所有社会领域的科学界和工业界来说是一条漫长的道路。特别值得关注的是,考虑到人工智能有可能增加战争的可能性,使正在进行的冲突升级,并扩散到恶意的行为者(Morgan et al, 2020),再加上新的网络作战工具有可能在沉默中以难以置信的速度与对手进行数字化交战,参与开发和/或进行此类行动的决策者有责任确保人工智能被正确理解、正确使用,并在考虑、减轻或避免负面因素的同时促进其积极方面(Russell, S., & Norvig, 2021)。这些方面通过允许其用户了解其行为、局限性和死后评估,促进对人工智能系统的信任(Dignum,2019)。针对军事网络领域的这些方面,本研究旨在定义和分析在军事网络行动中瞄准目标时与XAI模型的设计和应用有关的基本要素和方法。因此,本研究对人工智能、军事和网络安全领域的现有知识体系做出了贡献,并呼吁在这个方向上进一步研究,同时也为进一步设计适用于军事网络领域的战略、政策、方法和技术奠定了基础。

本研究继续分析了在军事网络领域开发XAI模型的挑战、机遇和效果,并在多学科背景下提出了具体案例和建模解决方案。此外,本研究强调,需要通过专门的项目和课程对利益相关者进行教育和宣传,并需要开发建模和模拟、游戏、测试床和数字孪生解决方案,以促进和加强i)参与开发军事网络领域XAI模型的利益相关者,以及ii)XAI模型本身的责任、透明度和公平性。

成为VIP会员查看完整内容
9

军事防御现代化规划通常涉及复杂的系统,必须了解这些系统,以便为设计、规划、实施和采购决策提供信息。为了获得对系统的基本了解并确定关键的初始参数,仿真实验可以用来在一个大型参数空间内有效地生成数据。虽然机器学习模型可用于模拟后的分析,以确定关键参数,但当目的是为决策者提供支持时,其可解释性和黑盒性质会带来挑战。在本文中,应用了一种可解释机器学习预测的模型诊断方法,称为沙普利加和解释(SHapley Additive exPlanations,SHAP),用于从基于Agent的模拟中获得数据,该模拟是一个军事作战场景。该场景是由加拿大陆军对其情报、监视和侦察资产进行现代化的举措所激发的,并对其进行了抽象化,以尽量减少建模系统的复杂性并验证SHAP的结论

关键词:基于Agent的仿真,数据耕耘,可解释机器学习。

1 引言

军事防御现代化计划通常涉及复杂的系统,必须了解这些系统,以便为设计、规划、实施和采购决策提供信息--这些决策通常与数百万到数十亿美元的预算相联系。例如,加拿大政府为实现加拿大武装部队(CAF)和国防部的密码能力现代化,拨款范围在2000万到4900万美元之间,为实现CAF轻型和重型后勤车辆能力的现代化,拨款范围在10亿到49.9亿美元之间(加拿大政府2020)。

仿真实验可以帮助对系统的基本了解,找到稳健的决策或方案,并比较不同决策或方案的优劣(Kleijnen等人,2005)。数据耕耘是指利用仿真实验在一个大的参数空间内有效地增长数据,以支持决策。它是一个跨学科的协作过程,使用快速原型设计、仿真建模、实验设计、高性能计算以及数据分析和可视化;详细概述见Horne等人(2014)。数据耕耘过程可以帮助操作仿真模型,学习仿真模型的行为,并确定关键信息,包括输入和输出之间的因果关系(Sanchez 2015)。实验设计应该是灵活的,以考虑不同的元模型、数据挖掘和图形分析技术,因为通常一种单一的方法将不适合全面评估模拟输出(Sanchez 2015)。

数据耕耘过程最早在20世纪90年代末提出(Horne 1999),此后被应用于海洋领域(Cheang 2016, Dobias and Eisler 2017, Morgan et al. 2018, Kesler 2019)、陆地领域(Kallfass and Schlaak 2012)、网络领域(Horne and Robinson 2016)和多领域(Huber and Kallfass 2015, Gordon 2019)等各种军事应用。数据耕耘已被用于研究各种类型的军事行动,包括战斗(Kallfass和Schlaak 2012)、人群控制(Kryza等人2012)、伤员疏散(Featherstone 2009)、空袭(Huber和Kallfass 2015)和国土安全,如关键基础设施的保护行动、海洋环境中部队保护的非致命武器选择,以及城市恐怖袭击的应急响应(Lucas等人2007)。

数据耕耘的挑战之一是模拟后的分析和可视化。这一步的重点是突出有用的信息,提取结论,并支持决策,这需要高度有效的分析技术,以充分利用可能产生的大量数据(Horne等人,2014)。鉴于机器学习模型处理和评估大数据的能力,它们很适合这项任务。然而,许多机器学习模型的黑箱性质可能具有挑战性,因为主要目标不是预测而是理解模拟。在以前的数据耕耘的军事应用中,模拟后的分析往往侧重于描述性统计(Huber和Kallfass 2015,Horne和Robinson 2016,Dobias和Eisler 2017)或描述性统计和可解释性模型的组合,如逐步回归和分区树(Featherstone 2009,Kallfass和Schlaak 2012,Cheang 2016,Gordon 2019,Kesler 2019)。

与可解释的模型相比,在黑箱模型中,如神经网络或随机森林,不可能直接有意义地检查其组成部分并获得洞察力(Ribeiro, Singh, and Guestrin 2016)。然而,这些更复杂的黑箱模型可以实现更高的预测准确性,在可解释性和准确性之间形成了一种权衡(Lundberg和Lee 2017)。为了应对这种权衡,已经开发了模型诊断方法来解释任何机器学习模型的预测。在最近的一个数据耕耘的军事应用中,Amyot-Bourgeois、Serré和Dobias(2021年)对随机森林模型的输出应用了互换特征重要性,这是一种模型无关的方法。特征重要性措施表明每个特征,或数据耕耘背景下的模拟参数,在预测感兴趣的结果方面的有用程度。识别重要参数有助于简化决策过程,但除非能够理解重要参数和感兴趣的结果之间的关系,否则价值有限。SHapley Additive exPlanations(SHAP)提供了一种替代包络特征重要性的方法,也可用于研究特征的价值与对感兴趣的结果的影响之间的关系(Molnar 2021)。根植于博弈论的Shapley值,SHAP的计算要求是NP-Hard;然而,基于树的机器学习模型有一个低阶多项式时间算法,也可用于研究特征的相互作用(Lundberg等人,2020)。

本文扩展了Amyot-Bourgeois、Serré和Dobias(2021)的工作,将SHAP作为模拟后分析的一部分,以评估它是否能对一个模拟的军事作战场景提供有意义的解释。在加拿大陆军(CA)对其情报、监视和侦察(ISR)资产进行现代化的倡议的激励下,模拟场景也对ISR支持稳定行动进行了模拟,但考虑了两种ISR资产定位方案,并纳入了一种额外的ISR资产类型。该场景在新西兰国防技术局开发的基于Agent的模拟环境中实施,该环境被称为地图感知非统一自动机(MANA)。选择MANA的部分原因是它的数据耕作能力,可以利用它在广泛的参数选项空间内运行模拟。该方案在第2节有更全面的描述。关于模拟参数、实验设计、指标和模拟后分析方法的细节将在第3节介绍。第4节介绍了仿真实验和SHAP分析的结果。最后,在第5节中提供了一些结论性意见

2 场景

仿真场景是一个简化的小插曲,它是为了证明利用ISR能力来支持加拿大军队的各种任务(加拿大公共工程和政府服务部2020)。它代表了一种情况,即加拿大军队将与一个多边伙伴,如北大西洋公约组织(NATO),领导或促进国际和平行动和稳定任务,这是加拿大国防政策 "强大、安全和参与 "的核心任务之一(加拿大政府2017年)。地点是北约的一个成员国受到一个邻国,一个非北约近邻对手的入侵威胁。因此,受到威胁的北约成员国援引了北约第5条,并成立了一个北约联盟来协助受到威胁的国家。北约联盟(蓝军,BF)监视边界,并与任何越境的红军(RF)交战。

下面的表1列出了情景中包括的所有小队,以及每个小队的地形和初始位置的表述。红军试图到达蓝军总部(蓝军 HQ)。当红军向蓝军总部推进时,它进入了蓝军边境传感器的探测和分类范围。在MANA中,探测是指在某一位置感知到特工的存在,而分类是指将探测到的特工的忠诚度分为友军(蓝军)或敌军(红军)的行为。一旦探测到并被归类为敌方,边界传感器就会将探测到的特工的忠诚度和位置传达给边界总部,后者则提示4、5和6小队(列于表1)向确定的RF位置移动。4号和5号小队的任务是与红军交战,而由无人驾驶飞行器(UAV)组成的6号小队的任务是持续跟踪红军并提示蓝军总部进行间接火力支援。如果所有的红军都失去了能力,或者达到了最大的时间限制,模拟就会结束。

表1: 基于Agent的模型中每个小队的描述和初始位置。

3 方法

3.1 场景参数和实验设计

选择用于参数化的自变量是蓝军边界传感器的数量、蓝军边界传感器的探测和分类范围(称为传感器范围)、蓝军边界传感器探测到的特工被正确分类为红军或蓝军的概率(称为分类概率)、蓝军边界传感器对RF传感器的隐蔽程度(称为传感器隐蔽性),以及蓝军无人机的数量。实验设计遵循网格状结构,每个设计点重复进行一百次迭代。表2显示了参数的范围。

仿真实验首先进行,同时保持蓝军边界传感器的固定位置,如表1所示为双传感器情况,而对于单传感器情况,则位于两个传感器之间的中点。然后重复模拟实验,将两个传感器和单个传感器随机放置在与两个固定的蓝军边界传感器之间的距离相对应的方框内(同时在双传感器情况下保持20个网格的最小分离距离)。在分析部分,这两种配置的传感器部署被称为固定或随机的传感器位置。

表2:变量的参数化范围。

3.2 衡量标准

仿真实验的目的是评估传感器组合(即给不同传感器的配置参数,如表2所列)在情景中的性能。已经提出并监测了几个指标来评估ISR资产的系统,如第一个探测步骤、所有红军坦克的平均探测步骤和探测范围、探测到的红军坦克的比例,以及一些蓝军的生存能力和致命性指标(Amyot-Bourgeois, Serré, and Dobias 2021)。在本研究中,在监测到的指标中选择了两个衡量有效性(MOEs)的例子进行更彻底的分析:第一个检测步骤和检测到的RF坦克的比例。第一个检测步骤是指从模拟开始到蓝军传感器第一次检测到红军坦克并将其分类的延迟时间(以用户定义的时间步长为1到10,000步,后者是模拟的最大分配时间)。检测到的RF坦克的比例是指至少被蓝军 ISR资产之一检测到并分类的RF坦克与RF坦克总数的比率,在整个实验过程中,该比率保持为10。

3.3 仿真实施

该场景使用MANA实现,MANA是一种对抽象表示有用的提炼工具(Anderson 2013)。MANA拥有数据耕耘能力,但可同时变化的参数数量限制在两个,而且只能与相同的固定小队相关联。这使得我们无法使用MANA内部的数据耕作能力来生成各种设计点。然而,方案文件被保存为XML文件,不同的相关参数可以使用XML编辑器直接修改。整套设计点是用Python的ElementTree软件包生成的,并保存为XML文件。仿真是使用高性能计算进行的,因为总的迭代次数上升到接近200万次,而且事实证明并行化对减少计算时间很有用。然后用Python脚本处理所有迭代的输出文件,以提取感兴趣的MOEs,并将实验结果整理成便于模拟后分析的格式。

3.4 模拟仿真后的分析方法

在机器学习中,主要目标是根据一组特征变量来预测结果或目标变量。在数据农业的背景下,场景参数被视为特征变量,MOE被视为目标变量。根据目标变量是分类的还是定量的,机器学习问题被分别称为分类问题或回归问题。随机森林是一种常见的机器学习模型,本研究之所以选择它,部分原因是它被发现通常表现良好,只需要很少的模型调整(Hastie, Tibshirani, and Friedman 2009, 590)。随机森林最早是由Brieman(2001)提出的,它由一大组通过引导训练数据建立的决策树组成。每次在树中考虑拆分时,只有一个随机的特征变量子样本被认为是拆分的候选人。正是这个特征抽样过程使树去掉了相关性,导致这组树的平均值比单树模型的变量更少,更可靠(Gareth等人,2017,320)。然后,随机森林通过多数票或树的预测平均值对测试观测值进行分类或预测。

本研究中关注的两个MOE,即第一个检测步骤和检测到的RF罐的比例,是定量的目标变量。耕耘模拟数据以70/30的比例被随机分成训练和测试集。然后使用Python的Scikit-Learn软件包的0.24.1版本(Pedregosa等人,2011)对随机森林回归器进行训练和测试。使用随机森林回归器的默认设置,除了将分裂内部节点所需的最小样本数增加到30,将叶子节点所需的最小样本数增加到10,并将最大深度设置为10以限制单个树的大小。在寻找最佳分割时,确定最大特征数的方法也从默认的使用总特征数改为使用特征数的(近似)平方根。在构建随机森林时通常选择平方根法(Gareth等人,2017,319)。为了评估随机森林的回归者,使用了决定系数(R2)。R2表示拟合度,是衡量未见过的观察结果被模型预测的程度(Scikit-Learn, n.d., chap 3.3)。它的最佳分值是1,而0分表示一个恒定的模型(即一个模型总是预测预期的目标值,而忽略特征变量)。它也可以是负数,因为一个模型有可能比恒定模型的表现更差。

SHAP方法计算Shapley值,它基于联盟博弈理论,代表了一个特征值与数据集的平均预测值相比对模型预测的贡献(Molnar 2021)。SHAP值是局部解释(即针对单个数据点),可以汇总起来解释一个模型的全局行为(Lundberg等人,2020)。作为SHAP值的延伸,Lundberg、Erion和Lee(2019)提出了同样基于博弈论的SHAP交互值,以直接捕捉成对的交互效应。由于随机森林是一个基于树的模型,使用Python的SHAP包中的TreeExplainer可以获得计算SHAP值和SHAP交互值的高速精确算法(Lundberg等人,2020)。0.38.1版的SHAP包提供了一系列的图形总结,包括SHAP特征重要性。为便于比较,还提供了互换特征重要性,它是用Python的ELI5软件包0.11.0版本的算法计算的(ELI5, n.d.)。互换特征重要性类似于Brieman(2001)首次提出的用于随机森林的方法。它通过确定当一个特征不可用时对模型性能(在本研究中用R2衡量)的影响来衡量其重要性。变量的去除是通过在测试集中用自身的随机置换来完成的。

4 分析

表3总结了每个MOE以及固定和随机传感器位置的随机森林回归器的性能。在所有情况下,随机森林模型都明显优于常数模型,后者的R2为零。对于第一个检测步骤,固定和随机传感器位置的特征变量解释了MOE中80%以上的变异。对于检测到的红军坦克的比例,拟合度没有那么强,固定传感器位置的特征变量解释了MOE中略高于60%的变异,随机传感器位置的特征变量解释了MOE中略低于60%的变异。

图1和图2分别列出了第一个检测步骤的排列特征重要性和SHAP特征重要性,以及检测到的RF坦克的比例。这些方法在识别最重要的特征方面基本一致,尽管在某些情况下确切的排序有所不同,特别是在不太重要的特征中。在图1(a)中,传感器范围是预测第一个检测步骤的最重要特征。对于固定和随机的传感器位置,如果将传感器范围从随机森林模型中删除,R2将下降到零以下,表明性能比恒定模型差。在图1(b)中,传感器范围也是最重要的特征。对模型输出的幅度(即预测的第一个检测步骤)的平均影响由SHAP值的绝对值的平均值给出。尺度与目标,即第一个检测步骤的单位相同。在图2(a)中,有两个特征对预测探测到的红军坦克的比例很重要:无人机的数量和传感器的范围。请注意,这两个特征的重要性顺序对于固定和随机的传感器位置是不同的。在图2(b)中,同样的两个特征被SHAP方法确定为最重要。请注意,在这种情况下,无人机的数量对于固定和随机的传感器位置都是排在第一位的。

表3:随机森林模型的性能得分。

图1:第一个检测步骤的特征重要性总结

图2:检测到的红军坦克比例的特征重要性总结

虽然标准的特征重要性柱状图提供了关于一个特征的相对重要性的见解,但正如Lundberg、Erion和Lee(2019)所述,"它们并不代表该特征对模型输出的影响范围和分布,以及该特征的价值与影响的关系"。他们提出了SHAP总结图作为替代方案,图3显示了第一个检测步骤,图4显示了检测到的红军坦克的比例。每个点代表一个设计点的SHAP值,并以相应的单个特征的值来着色,蓝色代表低值,红色代表高值。这些特征按其整体影响(即SHAP值的绝对值之和)排序。正(或负)的SHAP值表示与数据集的平均预测值相比,对预测(模型的输出)有正(或负)的贡献。

在图3(a)和图3(b)中,传感器范围的颜色的平滑渐变表明,随着传感器范围的缩小,模型的输出(预测的第一个检测步骤)平滑增加。这种行为在模拟中是可以预期的:第一次检测一般由边界传感器完成,当它们的范围较大时,它们会更早地进行第一次检测。当传感器位置固定时,图3(a)显示,当有一个边界传感器(蓝点)时,与有两个边界传感器(红点)时相比,第一个检测步骤比平均时间早(负SHAP值)。对模拟的检查也证实了这一结果:单个固定传感器的位置倾向于与穿越边界的红军坦克的路径一致,使单传感器的情况比双传感器的情况有优势。在图3(b)中,SHAP值的模式在传感器的数量上几乎完全颠倒。当边界传感器的位置在每次迭代中被随机分配时,在固定传感器配置中,单传感器情况比双传感器情况的优势被消除了。因此,在这种配置下,从单传感器到双传感器情况下,传感器区域覆盖的增加更加有效,红军坦克路径有更大的机会穿过两个传感器覆盖的区域,而不是一个传感器覆盖的区域。

图3:第一个检测步骤的SHAP总结图。

图4显示了探测到的红军坦克比例的SHAP汇总图。无人机的数量是对全球影响最大的特征。对于这个特征,蓝点代表没有蓝军无人机的设计点,这降低了模型的输出(预测检测到的RF坦克的比例)。这种行为在模拟中是预料之中的:一旦蓝军无人机被触发,它们就会被送到第一个探测到的RF坦克的位置,在跟踪它的同时,可以探测到其他RF坦克。因此,拥有一些无人机与没有无人机相比,可以增加探测到的红军坦克的比例。同样,低传感器范围也会降低检测到的红军坦克的比例。如图3所示,较低的传感器范围与较晚的第一次检测步骤有关,无人机在第一次检测之前不会被触发。虽然固定和随机传感器位置的三个不太重要的特征的排序不同,但传感器隐身性的右尾巴长,但左尾巴短,表明在这两种配置中,高传感器隐身性可以明显增加探测到的红军坦克的比例,但低传感器隐身性并没有明显减少探测到的红军坦克的比例。这可以解释为隐身性更强的边境传感器的生存能力更强,导致使用时间更长,有更多机会进行多次探测。

图4:探测到的RF坦克比例的SHAP总结图。

SHAP值侧重于特征效应,而SHAP交互作用值则可以将特征效应分解为主效应和交互作用。与SHAP值一样,SHAP交互值的全球影响也可以通过对单个SHAP交互值的绝对值进行总结。图5和图6分别列出了第一个检测步骤和检测到的红军坦克比例的这些总结。每个图中的比例代表了特征交互作用的相对全球影响。在图5中,对于固定的和随机的传感器位置,传感器范围和传感器数量、传感器隐蔽性和分类概率之间的相互作用影响最大。在图6中,对于固定和随机的传感器位置,只有一种交互作用的全局影响远远大于其他交互作用:传感器范围和无人机数量的交互作用。基本的互动模式可以用依赖图来进一步研究。为了说明这一点,图7显示了传感器范围和无人机数量的SHAP交互值。两种传感器配置的模式相似,并显示了在可能的传感器范围内检测到的红军坦克比例的明显转变。对于低于50的传感器范围,相对于没有无人机,至少有一个无人机增加了检测到的RF坦克的比例。然而,一旦传感器范围至少达到50,这种模式就会逆转。这可以追溯到模拟中的行为:在另一个蓝军小队或特工(即边境传感器或总部)检测到至少一辆RF坦克之前,无人机不会参与。一旦边境传感器的探测范围足够大,无人机的额外探测能力对探测到的红军坦克比例的影响就会减少。

图5:第一个探测步骤的SHAP交互值摘要

图6:检测到的RF坦克比例的SHAP交互作用值的汇总。

图7:探测到的RF坦克比例的传感器范围和无人机数量之间的SHAP交互效应的依赖图。

5 结论

本文的目的是评估SHAP在基于Agent的模拟中的数据养殖上的使用,以改善军事行动场景的模拟后分析。虽然机器学习模型,如随机森林,非常适合于大数据,但当分析的主要目标是获得对系统的基本了解以告知决策者时,其黑箱性质构成了挑战。SHAP是一种与模型无关的方法,用于解释任何机器学习模型的预测结果。TreeExplainer的作者Lundberg等人(2020年)提出,结合许多局部解释(即SHAP值)可以保留 "对模型的局部忠实性,同时仍然捕捉到全局模式,从而对模型的行为有更丰富、更准确的表述"。

提出了标准的特征重要性柱状图,使用基于排列组合的算法和SHAP值进行计算,强调这些图对模型行为的洞察力有限。虽然这两种计算特征重要性的方法在确定预测两个感兴趣的MOE的前一或两个特征方面基本一致,但SHAP总结图、交互值和依赖图对随机森林模型的行为提供了更多的了解。SHAP总结图显示了模型的预测对不同特征值的变化(例如,随着传感器范围的缩小,预测的第一个探测步骤平稳增加),并确定了极端值的影响(例如,高传感器的隐蔽性可以大大增加探测到的红军坦克的比例)。SHAP的交互值和依赖性图提供了进一步的洞察力,以了解所发现的两个最重要的特征对探测到的红军坦克比例的综合影响。SHAP还成功地识别了固定和随机传感器位置之间的关键差异,证实了在确定传感器组合时,位置,而不仅仅是传感器的数量,是一个重要的考虑。使用SHAP可以验证所发现的见解,因为模拟场景被有意抽象化,以尽量减少其复杂性并保持对战场动态的直观理解。这意味着可以根据对实施的直接了解或通过在MANA中交互运行模拟来查看Agent的行为来确认这些见解。

虽然SHAP在改进模拟后的分析方面表现出了显著的前景,但它解释了在养殖数据上训练的机器学习模型的预测。因此,它不是对模拟场景的直接解释,在机器学习模型性能不强的情况下,可能产生误导性的结果。对机器学习模型的适当训练和测试仍然是模拟后分析的关键步骤。尽管如此,这项研究仍然可以用来向决策者展示数据农业的潜力,以及它如何利用抽象的模拟实验帮助人们对一个复杂的系统有基本的了解。这在军事现代化项目的早期阶段可能特别有帮助;研究结果可以用来确定参数或选项,以便进行更详细的研究。未来的研究将考虑更复杂的场景和更广泛的机器学习模型。

作者

LYNNE SERRÉ于2013年首次加入加拿大国防部,在军事人员研究和分析总干事手下担任国防科学家,专门从事军事人员的建模和分析。2019年,她加入了加拿大国防研究与发展部作战研究与分析中心,目前为位于渥太华的加拿大军队总部提供支持。她在加拿大滑铁卢大学获得了计算数学的硕士学位。她的电子邮件地址是:lynne.serre@ecn.forces.gc.ca。

MAUDE AMYOT-BOURGEOIS是加拿大国防研究与发展部作战研究与分析中心的初级国防科学家。自2019年以来,她与加拿大陆军作战研究和分析小组的同事合作进行各种作战模拟研究。Maude Amyot-Bourgeois在加拿大渥太华大学获得物理学硕士学位。她的电子邮件地址是:maude.amyot-bourgeois@ecn.forces.gc.ca。

BRITTANY ASTLES自2021年1月起担任加拿大国防研究与发展部作战研究与分析中心的学生国防科学家。她之前的工作是利用机器学习研究全球恐怖袭击趋势和U型分形事件。她目前是地理学硕士的候选人,专业是数据科学。她的电子邮件是:brittany.astles@ecn.forces.gc.ca

成为VIP会员查看完整内容
9
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员