摘要

我们总结了2021年10月19-21日举行的“网络防御深度机器学习研究专家研讨会”的结果。我们通过论文向北约科学和技术组织报告了此次论坛上分析的深度学习当前和新兴网络安全应用。研讨会的目的是介绍新的观点,揭示政府在相关领域的研究,说明深度学习如何应用于网络安全,并介绍在网络空间军事行动中应用深度学习的实施需求。总的来说,其结果提高了对问题和机会的认识,确立了各应用领域的共同需求,并确定了一条前进之路

1.0 引言

自20世纪后半叶现代计算机出现以来,人类对所有软件进行了编程,并成为计算和算法进步的主要推动者。然而,截至21世纪初,深度学习的实际进展已经改变了软件的格局。深度学习使计算机能够通过训练描述输入和输出之间关系的模型来"编程"自己的软件。算法上的突破正在加速每个行业的进步,并取得了巨大的成功。最受欢迎的应用包括那些能够识别物体[1]和翻译语音[2]的应用,其精确度接近人类的实时水平。专家们雄心勃勃地表示,深度学习最终将能够 "做一切事情",甚至可能复制人类智慧[3]。

与此同时,对软件的日益依赖加强了保护计算机系统和网络的重要性,使其提供的服务不受损害或破坏。在21世纪的前几十年里,数据泄露的速度和影响进一步说明了网络入侵是如何重塑全球安全形势的。因此,对一个越来越有弹性的网络空间需求,特别是当它与军事系统相交时,正促使许多深度学习的新应用。这些应用可能会加强军事战略定位,并建立一个有弹性的网络安全态势,与不断变化的威胁保持同步。然而,实现这一结果需要跨学科的应用研究和实验,以便真正了解限制和实际效用。

因此,我们总结了2021年10月19-21日举行的“网络防御深度机器学习研究研讨会”的成果。这个北约科学和技术组织(STO)论坛的重点是巩固网络防御的深度学习应用领域的知识。与会者包括来自澳大利亚、比利时、芬兰、法国、德国、意大利、挪威、波兰、土耳其、英国和美国的研究科学家和工程师。组织代表包括来自大学、民间研究组织、国防机构和军事研究实验室的强大观点组合。

该论坛的目的是促进北约国家和盟国之间的合作,以确定和追求网络领域最有前途的深度学习用例和方法,包括计算技术、架构和数据集或模型。为了实现这一愿景,它有助于提高对两个主题之间共生关系的认识。深度学习通过将持续监测的繁琐环节自动化,使网络安全中的硬问题受益。另一方面,网络安全也将受益于深度学习的实际应用和强大的实施设计。此外,随着深度学习应用的扩散,以及与物理世界(即自主系统)越来越多的互动,传统上描述和隔离网络空间的边界将被侵蚀。因此,要实现网络安全,就必须采取超越传统上用于网络安全的新方法。

美国陆军研究实验室的Frederica Free-Nelson博士在研讨会开幕词中指出,深度学习和网络安全领域都有许多未解决的问题,与其依靠几个主要贡献者来解决,不如分享过程、方法和成功案例,以避免浪费资源或阻碍进展。现实世界中,用户驱动的问题与基础研究和应用实验适当匹配,可以实现信息主导和决策优势。因此,本次研讨会的预期愿景是,部分地捕捉那些让领导层了解到需要为持续的挑战投入资源的发现,并将科学家、从业者和最终用户以一种有利于复制成功和持续进步的方式联系起来。

本文的结构是按照研讨会的目标进行的。第2节介绍了术语和观点,这些术语和观点限定了问题空间并形成了潜在的解决方案。第3节说明了深度学习是如何应用于网络安全的,并提出了进一步获得收益的机会。第4节介绍了北约STO内部的相关工作,并在多个应用领域之间进行了比较。第5节最后强调了关键的发现和对军事环境的考虑。最终,我们旨在提高对深度学习在军事背景下为网络安全提供的有价值的认识,并确定了已经成熟的探索机会

2.0 从网络安全和深度学习的交叉点看问题

根据美国军事学说的定义[4],网络空间是以使用电子、电磁频谱和软件来存储、修改和通过网络系统和相关物理基础设施交换数据为特征的领域。这包括微电子、计算、通信、网络和软件技术,包括人工智能、机器学习和深度学习。网络空间技术的应用是所有经济部门、关键基础设施和军事行动的基础。将继续发展网络空间的技术趋势包括无处不在的连接和网络边缘的传感,增加系统的可编程性和复杂性,自主性和加速决策循环的应用,越来越不可信和不透明的供应链,以及新的计算架构(即量子和神经形态计算)。非技术性的趋势包括互联网用户数量的增长,为消费行业分析而积极利用用户元数据,以及国际外交或国防考虑。鉴于技术变革的积极速度和非技术趋势的不确定性,网络空间将继续以可能难以准确预测的方式发展。

在军事方面保证网络空间包括两个不同的任务:网络安全和网络防御。网络安全的目的是通过保证关键系统的属性,如保密性、完整性和可用性,来限制脆弱性。随着网络物理系统,如关键基础设施、智能制造、武器系统,以及最终的生物-神经接口的激增,网络安全越来越多地包含了非传统的属性,包括安全性、及时性和复原力。此外,这些系统的物理性质提供了新的仪器和遥测技术,以确保其网络态势[5]。另一方面,网络防御描述了为应对网络空间中的敌对行为而采取的行动。虽然这些角色在一些组织中可能会重叠,但由于军事单位如何组织和执行任务的基本功能,所以存在着区别。网络安全是那些设计、开发和操作特定系统的人的责任。然而,网络防御是一些重点活动的责任,这些活动专门负责监测和协调整个组织对敌对威胁的反应(即安全操作中心)。

网络空间是战略军事格局的基础,北约国家必须减轻对其军事系统、平台和任务的网络威胁。深度学习是一种新兴的软件技术,其应用能够加强这种弹性态势。为此,北约科技组织的信息系统技术小组成立了一个关于 "网络防御的深度机器学习 "的研究任务组(RTG)。Fraunhofer FKIE(德国)的Raphael Ernst先生在研讨会开幕词中澄清,RTG的章程不是开发新的深度学习技术,而是巩固北约范围内深度学习在网络防御中的应用知识,确定民用解决方案和军事需求之间的差距,并与其他北约国家合作,使用数据处理,共享数据,并寻求将最有希望的技术和应用转移到军事领域。由网络安全和机器学习专家组成的RTG审查了技术标准、学术研究和商业技术产品的全面选择,以评估当前的技术状态。该研究对当前技术状况的结果在第3节中进行了总结。

然而,人工智能领域的不断进步和网络物理系统的扩散将改变网络格局,并为新类别的网络攻击让路。网络物理系统采用软件来控制与其物理环境交织在一起的机制,在混合时间尺度上运行,并以随环境变化的方式进行互动。例如,自动驾驶汽车将深度学习应用于车载摄像头,以查看并决定如何在道路上行驶。研究表明,物理世界对这些软件系统的攻击可能造成伤害[6]。无人驾驶汽车进一步依赖持久的连接,与其他设备、网络和车辆共享遥测信息。虽然是作为一种反馈机制,但这和类似的网络物理系统设计暴露了攻击面[7]。

最终,保证网络物理系统的运行变得越来越困难,有弹性的网络态势需要超越传统网络安全方法的手段。因此,描述各种深度学习应用中的公开挑战对于理解网络风险至关重要。RTG发起了这次研讨会,在一群对各种军事和民用应用有深刻见解的不同专家之间推进这一议程。鉴于不同领域的参与,对术语的讨论将提供有用的背景。

人工智能(AI)通常描述任何使计算机能够模仿人类智能的技术。人工智能的早期成功源于基于规则的系统和捕捉人类专家知识的系统。尽管存在着对人工智能能力进行分类的标准,但我们选择了机器学习和深度学习之间的简单区别来构建我们的讨论。研讨会采用 "深度机器学习 "这一术语,表明对深度学习的重视,并不排斥传统的机器学习,但也承认,持续的进步将巩固深度学习作为人工智能领域最突出技术的地位。

机器学习是人工智能技术中最重要的子集,它提供了通过发现数据中的模式来提高计算性能的能力,而不需要遵循明确的编程指令。经过几十年的缓慢进展,机器学习最近在包括消费者分析和社交媒体在内的各种应用中获得了广泛的采用。机器学习算法利用统计学在大量的数据中寻找模式,这些数据包括数字、文字、图像或其他数字信息[8]。机器学习的应用采用了一个可以概括为四个阶段的管道。首先,数据采集涉及识别和收集数据元素。第二,特征工程涉及预处理或提取有关该数据的统计数据。第三,初始数据或导出的统计数据被用来训练一个能够识别模式和关系的模型。最后,用输入数据评估或部署模型,这些数据可能反映也可能不反映初始阶段的训练数据群。尽管这些阶段的特征是线性的,但它们往往是迭代实施的,并且在它们之间有大量的反馈和调整。最终,数据的依赖性和质量决定了每个应用的有效性。

深度学习是指机器学习技术的一个特定子集,它允许模型通过将多层神经网络暴露在大量的数据中来训练自己。区别在于特别是上述管道的第二和第三阶段。神经网络是人类大脑中的神经元和突触的简化数字模型,由处理数据的简单计算节点层组成。虽然早期的神经网络仅限于几层神经元,但一种被称为反向传播的突破性技术在理论上实现了这些层的扩展,从而为由更多层组成的 "深度"神经网络铺平了道路[9]。在最初发现的几十年后,计算能力的提高使得深度神经网络对图像进行分类的能力得到了非常成功的展示,随后将其确立为最先进的技术[10]。新兴图形和张量处理单元硬件带来的计算能力提高,进一步加速了对越来越大的数据集的利用,使广泛的模式识别和分类问题受益。

机器学习和深度学习都可以以多种方式应用。有监督的学习应用,通常被认为是最普遍的,利用被标记的训练数据来告诉计算机它应该寻找什么模式。另一方面,无监督学习应用则利用了没有标签的训练数据。强化学习是一个新兴的前沿领域,算法通过试验和错误,基于一些规定的奖励函数,学习如何实现一个明确的目标。另外,"未来学习"技术包含了在不同操作环境下实现应用的新兴方法。例如,迁移学习,将从解决应用中的一个问题中获得的知识用于不同但相关的问题。联邦学习,尽管仍然是一个活跃的研究领域,已经被证明可以通过将训练功能分布在一些节点上来减少数据的依赖性。在RTG即将发布的技术报告中,详细介绍了对这些和其他相关方法的彻底研究。

在讨论深度机器学习系统的安全影响时,挪威国防研究机构的Espen Hammer Kjellstadli先生阐述了数据驱动的网络安全的考虑,这些考虑超越了传统的基于规则的方法。深度机器学习引入了围绕特定模型的训练和测试的新漏洞。在一个管道的初始阶段获得的训练数据可以被操纵,从而影响模型的正确性。由于导致模型构建的特征之间的不平衡,该模型也可能在后期阶段被利用。对这些漏洞的研究,以及如何防御或将其武器化,被称为对抗性机器学习。一个全面的概述可以在美国国家标准研究所(NIST)[11]和MITRE[12]的工作中找到。这两份参考资料都是对任何机器学习架构进行初步设计或安全评估的绝佳资源。

针对对抗性机器学习攻击,已经提出了许多防御措施。例如,训练阶段的攻击,即攻击者推断出模型可能学习的知识类型,可以通过加密、消毒、刻意选择或对训练语料库引入其他人为限制来缓解训练数据。训练语料库可以进一步泛化,要么通过增加其数量,要么通过探索其数据的替代表示法。这种方法已被证明在管道的每个阶段都能提供性能提升和安全优势。最后,合成对抗性数据已被证明可以补充传统的训练数据,并增强所产生的模型弹性。最终,数据质量在一个特定模型的性能中起着至关重要的作用,用于训练模型的数据越多,该模型通常就越有效。

影响深度机器学习的另一个安全考虑涉及到对特定模型结果的可解释或可解释性描述。与传统的算法系统不同,信任不能来自对决策标准的透明理解。这些系统的复杂性,扩展到数以百万计的特征权重,有效地将深度机器学习应用转化为黑盒。这是一个重要的考虑因素,因为人类必须越来越多地理解、验证这些系统的判断并采取行动。

3.0 网络安全中的深度机器学习应用

深度机器学习在网络安全方面有很多应用。在不同的演讲中,美国海军研究实验室的Joseph Mathews先生和美国陆军研究实验室的Tracy Braun博士,通过报告RTG最近的研究结果,阐明了当前的技术状况。该研究通过采用NIST[13]的指导来描述其研究结果,该指导帮助组织实施其资产的信息安全持续监控计划,了解网络威胁和漏洞,以及部署的安全控制的有效性。监控被定义为持续的检查、监督和关键观察,以确定与预期或所需性能的变化。这里的"持续"和"不断"意味着组织风险的评估频率足以支持风险管理活动和充分保护组织信息。

具体来说,[13]定义了11个安全自动化领域,解决了建立和保持持续的网络安全感知所需的一系列安全控制。每个领域包括一组必须收集、分析和报告的工具、技术和数据。顺便说一下,这些领域形成了一个有用的结构,通过它来描述深度学习当前和拟议的网络安全应用。考虑到相似性和便于阐述,我们借用了这11个领域,并将其分成8个不同的类别。该研究的完整结果将在即将发布的技术报告中进行详细报告。

3.1 恶意软件检测

恶意软件是指在所有者不知情或不同意的情况下,故意设计成渗入、修改、破坏或损害计算机系统的任何恶意软件。恶意软件承担了许多形式的数字内容,包括可执行代码、脚本和嵌入交互式文件内的活动对象。恶意软件检测机制在事先了解恶意内容的情况下,对信息系统进行定期或接近实时的扫描。反病毒签名和类似的识别技术(即启发式方法)是详尽的法医分析产物,有必要结合静态和动态方法。

在试图改善恶意软件检测方面,深度机器学习已被广泛探索。传统的方法依赖于从该领域的专家知识中获得的人工设计的特征。这些解决方案提供了一个抽象的软件视图,可以用来归纳其特征。特征工程和特征提取是工作流程中关键的、耗时的过程。跟随其他领域的进展,恶意软件检测能力正越来越多地利用深度学习架构。

研究表明,该应用可能克服恶意软件检测中的传统挑战。行业趋势表明,越来越多的公司提供基于人工智能的网络安全解决方案,为恶意软件检测实施某种形式的深度学习。学术工作中的拟议应用进一步证明了用新的、独特的程序数据表示法实现的更大功效[14]。然而,这些应用通常继续遭受强大的训练数据的不可用性,模型的过度拟合,缺乏解释能力,以及随着恶意软件技术的发展而减少的持久性。

3.2 事件管理

事件管理包括监测信息系统中的可观察到的事件,以及信息系统之间的事件。传统的入侵检测系统[15],在网络或终端上实施,采用了基于签名和基于异常的模型,这些模型存在缺陷。基于异常的模型已经被证明能够产生高的假阳性率,而基于签名的模型已经被证明能够产生高的假阴性率。两者都可以从深度机器学习的进展中获益,因为它不依赖于特定攻击模式的先验知识。同样,电子邮件过滤的进展也采用了自然语言处理(NLP)的深度学习应用来识别表明是垃圾邮件的信息模式。例如,谷歌已经使用TensorFlow大大增强了Gmail的垃圾邮件检测能力[16]。

事件管理工具同样有助于检测和应对网络攻击。这些工具依赖于日志和审计记录,这些记录捕捉了信息系统的行为和状态,通常与系统交易、安全控制或性能有关。帮助生成、传输、存储、分析和处理日志数据的工具,对于许多网络安全操作来说已经变得越来越重要。

目前这些领域的产品(即扩展检测和响应的平台或技术栈;安全信息和事件管理;以及安全协调、自动化和响应)收集的数据自然适合用深度学习来开发。许多商业工具已经为深度学习插件提供了一些本地支持。然而,大多数实现这种支持的尝试都绕过了原生系统,而选择了外部预处理和后处理管道,或者通过与第三方框架的整合。这表明深度学习能力将与他们平台的原生能力同步发展。

值得注意的是,这些应用可能会受到专有数据格式的限制,无法公开或增加获得数据的背景,以及对报告的输出缺乏信任。专家们进一步表示担心,现有的工具可能不会以最佳的保真度(例如,聚合元数据)收集数据,以解决实际问题。我们猜测,一旦安全运营中心团队普遍部署的工具整合了深度学习框架或算法,事件管理中的深度学习应用研究将变得越来越受欢迎。同时,这些功能齐全的平台在架构上与其他工具集成和共存时,可能会在复杂性和维护方面带来新的挑战。

3.3 信息管理

信息管理是指管理信息的位置和传输,这对保护组织数据的保密性、完整性和可用性至关重要。数字信息被有意或无意地储存在无数的系统和设备中。因此,数据丢失、被盗和泄漏对一个组织的信息安全态势构成了相当大的风险。数据丢失预防(DLP)工具具有清点、分类和跟踪数据创建、使用、存储、传输和处置的能力。

目前的DLP系统实现了一种混合的数据分类技术,包括标记数据、精确匹配、部分匹配、正则表达式和机器学习。目前DLP工具领域的许多研究都是围绕着分析数据及其分类进行的。深度学习擅长解释复杂的数据(如文本、图像、视频),因此可以提供对其中编码信息的机器可读访问。

对强大的、与组织相关的训练数据的访问对于取得积极的结果尤为重要,然而零信任的信息安全原则通常会阻止对可能构成某些训练语料库基础的敏感文件不受约束的访问。对静态数据和传输中的数据进行端对端加密的扩散,进一步给强大的数据获取带来了挑战。业务流程建模和越来越多的多模态数据的颁布也带来了新的挑战和机遇[17]。

3.4 漏洞和补丁管理

漏洞是一种软件缺陷,它引入了潜在的安全风险。补丁是一种消除或减少该漏洞的软件修复。随着漏洞和补丁的数量不断增加,漏洞和补丁管理工具允许组织以协调的方式识别、报告和补救漏洞。例如,漏洞扫描器通常被用来识别端点、网络、操作系统和应用程序的漏洞。补丁管理工具也同样扫描系统的漏洞,并促进必要的补丁和其他更新的应用。

这一领域的许多商业产品都声称要实施机器学习,主要是为了确定补救措施的优先次序。值得注意的是,由DARPA赞助的2016年网络大挑战竞赛展示了自动化网络安全系统的潜力,该系统可以实时发现、评估和修补漏洞[18]。竞争团队所使用的方法包括用深度学习增强的模糊工具。未来的愿景是采用类似的工具,可以扫描软件的漏洞,并协助自主修补它们。正在进行的使能能力的开发持续进行,而且非常有希望,但缺乏成熟度。

3.5 软件保证

软件保证是一套有计划的活动,以确保软件按预期功能运行,没有缺陷。常见的软件保证技术包括安全编码、源代码分析和应用模糊工具。最终,软件保证有助于实现可信性,即不存在可利用的漏洞;以及可预测性,即软件有信心按预期执行。软件分析的三种主要类型的工具和技术已经被确认。静态分析工具在不执行的情况下检查系统/软件,包括检查源代码、字节码和/或二进制文件。动态分析工具通过执行系统/软件,给它特定的输入,并检查输出来检查系统/软件。混合工具整合了静态和动态方法;例如,测试覆盖率分析器使用动态分析来运行测试,然后使用静态分析来确定软件的哪些部分没有被测试。

在上面列出的工具和技术中,深度机器学习已经被应用于源代码分析和模糊测试。此外,最近的实际应用可以在操作系统开发当中找到,维护者使用机器学习来区分修复错误的补丁和没有修复的补丁[19]。除了这些增加软件保证的传统方法之外,商业领域的新兴能力越来越多地试图通过低/无代码平台使人工智能生成代码。这是否能减少bug的数量,从而减少安全漏洞,还不确定。这可能是一个值得追求的方向,在未来的研究中。

3.6 资产和许可证管理

资产管理指的是维护组织内的软件和硬件系统的库存。这可以通过系统配置、网络管理和许可证管理工具的组合,或者通过一个特殊用途的工具来完成。软件资产和许可信息可以由软件资产管理工具集中管理,以跟踪许可的遵守情况,监测使用状态,并管理软件资产的生命周期。资产管理目前被人类用于计算硬件、软件和设备的库存和配置管理。

资产管理工具可以产生和记录大量的数据,使人们能够深入了解网络安全和商业运作。最近在军事系统的网络防御方面的工作认为,分布式自主代理可以感知和适应性地防御他们的环境[20]。这些应用的共同主题是能够减少人类的监督,适应性地管理技术消耗,优化资源利用,映射资产和数字工作流程之间的依赖关系,以及预测或应对有机商业风险。智能化、无处不在的设备趋势将推动对资产管理创新方法的需求,在这种情况下,不仅是人类操作员,而且各种设备本身都能够适应其环境,以不断优化自己。

未来的应用,一般被称为 "工业4.0"[21],设想通过边缘计算和下一代无线技术(即5G),在每个设备上进行基于机器学习的资产管理。这种设备与设备之间的通信将促进和优化智能工厂的流程,这样设备就可以通过动态感知其环境来调整其配置。在这种情况下,要扩大资产管理的深度学习应用,就必须采取全面的、跨学科的方法,与互补技术的进步保持一致,这些技术包括移动设备、物联网平台、位置检测技术(如射频识别、近场通信)、3D打印、智能传感器、数据分析、增强现实、可穿戴计算,以及联网的机器人和机器。

3.7 网络管理

网络管理工具包括主机发现、库存、变更控制、性能监控和其他网络设备管理能力。最近,机器学习被提议作为一种机制,用于动态配置和协调这些工具,以实现移动目标防御,挫败对手的操纵。文献中探讨了这些应用,但许多用例仅限于简单的场景,如带宽节流和性能管理。在军事背景下为战略和战术资产调整网络管理技术也仍然是一个相当大的挑战。

存在许多新兴的应用,包括涉及用户行为分析[22]和车辆网络[23]的应用。在前者,可疑的用户行为模式可能需要改变网络配置。在后者,聚类算法可以有效地将网络流量定性为可疑或良性。许多深度机器学习应用,特别是那些用于事件检测和恶意软件检测的应用,已经被网络管理工具收集或暴露的数据所支持。因此,之前的研究主要围绕着网络监测和事件分类。然而,最近的工作证明了基于深度学习的路由在分组交换网络中的流量控制的有效性。同样,提议将深度学习应用于网络管理的目的是在没有人类监督的情况下自动或优化网络管理任务。

最终,移动目标防御(MTD)是一个可以从深度学习中大大受益的领域。传统的网络防御由于环境的静态性而无法考虑到攻击者的固有优势,而MTD则会不断改变该环境的配置,反过来降低网络攻击的成功率。深度学习已经被证明可以准确地对应用进行分类,其流量是由软件定义的网络控制器自然获取的。为战略和战术资产调整网络管理技术将是一个相当大的挑战,因为军事网络由相当大的规模和多样性组成。

3.8 配置管理

配置管理工具允许管理员设置、监控、证明和恢复配置设置。随着网络和设备的复杂性增加,管理信息系统之间的配置也变得越来越困难。自动化的解决方案提高了效率,改善了可靠性,同时普遍降低了规模成本。系统配置扫描工具提供了审计和评估目标系统的自动化能力,以确定其是否符合定义的安全基线配置。尽管深度学习在这一领域的实际应用很少,但在上一节讨论的移动目标防御方面仍有很大的潜力。

4.0 相关军事应用和开放性挑战

深度学习的应用一般都有一个特点,那就是源于大量的数据,必须在此基础上得出洞察力,或者希望有更大的自动化。这一观点得到了许多探索一系列军事信息系统技术应用的互补性RTG的响应。本文将详细介绍这些互补性小组的研究结果。

4.1 半自主无人驾驶地面车辆的互操作性

挪威国防研究机构的Kim Mathiassen博士在《半自主无人驾驶地面车辆的互操作性》中指出了在追求军事信息系统技术的互操作性方面所面临的挑战。互操作性是一个经常被认为是理所当然的重要话题,它被简单地解释为具有不同出处的不同技术能够轻松地进行信息交流和同步。实现这一目标的标准制定和采用带来了许多障碍。

北约国家正在为各种作战任务(如情报、监视、侦察;化学、生物、放射性、核、高能炸药探测等)投资于无人驾驶地面车辆(UGV)技术。为了在联盟环境中运作,国家之间必须共享这些平台的信息,甚至可能是控制。之前的实验已经证明了实现这一目标的一些实际挑战,包括获取不同的视频和遥测馈电格式,以及不同的网络和无线电通信系统造成的干扰[24]。

目前的互操作性标准涉及如何从操作员控制单元传输控制数据,机器人应如何将数据传回给操作员,以及如何在车辆之间共享数据。在构建这些标准的过程中遇到的挑战包括时间同步、校准、测量精度、隐含假设以及数据(如地图)和元数据的格式和表示。类似的或竞争的标准和开发工具包之间的特征重叠,进一步需要对具体要求和能力进行解读。

随着接口和标准的成熟,军事指挥官设想以自主或半自主的方式采用UGV技术,这将越来越需要它们感知周围环境。这种应用将阻止对机器人的直接控制,而采用传输中间航点进行导航等方法。因此,深度学习被广泛认为是许多UGV项目的基本组成部分。现有的标准除了传统的遥测和传感器信息外,还需要适应网络安全的考虑。网络态势可以是内省证明和共享的,也可以是外部观察或查询的。具有这种保真度的网络物理资产的态势感知可以为任务和控制决策提供信息,特别是当平台在有争议的环境中运行并预期对手会通过物理或电子攻击载体进行操纵时。

4.2 确保无人驾驶和自主车辆的任务保障

挪威国防研究机构的Federico Mancini博士在《为保证任务而保护无人驾驶和自主飞行器》一文中,解释了将自主平台执行的多领域任务的一系列网络安全挑战。要了解无人系统带来的风险,首先必须全面了解对其安全态势起作用的所有因素,包括外部威胁。

自主平台有许多形状和大小,在陆地、海洋、空中和空间运行。这些固有的网络物理系统依靠传感器输入来收集与他们手头任务相关的数据,或感知他们的周围环境,以做出如何导航的决定。军事应用的移动、网络连接的性质进一步为网络保证带来了独特的挑战。例如,在传统的民用应用中,自动驾驶汽车被设计为遵守明确规定的交通法规和道路基础设施。另一方面,自主的地面、海洋和空中平台可能在没有规定的规范和有争议的条件下在开放环境中运行。

为了研究这个问题,研究人员提出了一个理论框架,解决平台行为如何随任务背景变化的问题。该框架主要以威胁为基础,包括三个不同的层次。任务层定义了任务成功所需的功能和结果。车辆层定义了那些被分配到任务中并需要保护的平台。最后,组件层定义了每个平台内允许使用这些资产的子系统(即,执行器)。在每一层,该框架采用了一套定义与其他层关系的目录。例如,通用的任务安全目标,如安全性、可靠性和保密性,可以映射到在实现这些属性方面发挥作用的平台组件。一些通用的例子包括自主导航、收集和处理传感器信息、在其有效载荷能力之间进行通信和合作,以及安全地存储敏感数据的能力。每项任务都将取决于平台上的某些组件,而每个组件都容易受到某些威胁的影响。

防御这些威胁的一个主要考虑是平台的自主响应能力。由于环境所带来的操作限制,为无人系统实施安全能力是很棘手的。传统的信息系统是在持续的连接和普遍有利的带宽条件下运行的,而战术环境必须能够在断开的、间歇的、潜在的或隐蔽的连接条件下运行。这些环境的网络防御解决方案,包括那些实施深度学习的解决方案,必须在这些条件下适应和推理。这包括那些解决传统网络威胁的机制,以及那些解决旨在破坏其功能的网络物理性质的物理攻击。对问题的识别可能会引发各种反应,这些反应说明了任务成功的不同方面(例如,返回基地、关闭、自毁、删除存储内容)。深度学习在感知物理环境方面的成功很可能会推动其中一些算法决策。

4.3 用于混合军事行动的人工智能、机器学习和大数据

美国海军研究实验室的Prithviraj Dasgupta博士在《人工智能、机器学习和大数据在混合军事行动中的应用》一文中,谈到了人工智能技术日益主导的军事场景所带来的挑战,以及对抗性人工智能和博弈论在应对混合战争的挑战中可以发挥的作用。为了使这一观点与研讨会的背景保持一致,随后讨论了对抗性人工智能在恶意软件检测方面的应用。

生成式对抗网络(GANs)是一种基于深度学习的生成式模型,是一种创建与训练数据共享特征的合成数据方法。虽然GANs在愚弄人工智能系统方面的应用已经被广泛探索,但它们主要集中在图像和文本数据上。在最近的网络安全应用中,GANs已被证明可以有效地改造已知的恶意软件,使其看起来是良性的,但仍然是恶意的,从而骗过传统的检测方法,包括机器学习分类器。然而,在实践中这样做会产生成本,因为对手必须发现在训练样本中插入多少和哪里的噪音。

现有技术因其对二进制程序数据中发现的特征空间的改变而受到限制,这可能会阻止所产生的GAN衍生程序被执行。因此,目前的工作重点是在字节级修改数据[25]。特别是三种策略,框住了一系列的报告实验[26]。首先,填充攻击增加了一些空白的 "填充"字节,然后用从训练的恶意软件的主体中提取的字节替换每个添加的字节。第二,DOS头攻击修改恶意软件可执行程序头的部分,因为大多数机器学习分类器将检查限制在该部分。第三,遗传攻击根据遗传算法选择性地替换恶意软件中的字节。

评估这些方法的结果包括量化规避率,或修改后的恶意软件能够骗过分类器的程度;执行修改所需的时间;以及产生修改后的恶意软件所需的修改数量。实验结果证实头攻击是最有效的,因为它的规避率高,所需时间和改动的衡量标准低。研究人员进一步指出,随着操作系统变得越来越复杂,制作恶意软件变体所需的修改数量也越来越多。研究人员继续就如何使用GAN技术来制作能够欺骗基于人工智能的探测器的恶意软件样本进行实验。最终,博弈论方法可用于描述攻击者-防御者互动之间的权衡,这些互动涉及制作对抗性样本。

4.4 信息战行动中的数据隐藏

波兰军事技术大学的Zbigniew Piotrowski博士在《信息战行动中的数据隐藏》一文中详细介绍了在现有通信渠道中实现隐藏数据层的技术,以及它们带来的机遇、威胁和挑战。隐藏数据层是隐藏信息的通信渠道,是对现有加密和隐写方法的补充。传统上被认为是一种挑战和威胁,最近探索隐蔽信道方法的进展的工作表明,不同的研究分支如何能够为彼此提供好处[27]。

目前,学术研究主要涉及创新的通信设备,例如,去除隐藏传输的隐写过滤器、隐写路由器、基于数字水印的多媒体数据隐藏的众多方法、无线电通信中的新隐写方法(无线电隐写)以及计算机网络(网络隐写)。软件定义的网络(SDN)在主要SDN接口被恶意软件感染的情况下可以进一步支持隐藏的通信。同时,有许多关于分析和检测隐藏数据的方法的描述,也有关于识别利用隐藏传输进行的攻击的方法[28]。

这个领域的潜在主题包括检测和防止有线和无线连接中的数据隐藏传输的方法;检测和防止互联网和文件中的多媒体内容水印;识别隐藏通信的行为标准;在军事通信中使用隐藏传输和数字水印;北约隐写应用和设备标准化,内置数据传输技术隐身类;数字对象和数据流的隐写分析程序;感知测试的标准化和透明度(例如。语音、音频、视频)、稳健性和透明度的隐写分析;以及在量子技术背景下保护数据的替代方法。

最近在实际应用中取得的成功包括在专用的战术无线电通信手机中隐藏数据,这些手机可以通过信道内编码的人员识别号码独立地验证说话方(或语音经纪人)。许多类似的创造性应用正在被提出,而深度学习的应用自然适合利用那些涉及数字多媒体内容和信号。其他的例子包括与现有网络和配置管理能力有共同特点的渠道选择和协调。

4.5 机器学习系统的稳健性和责任性

美国海军太平洋信息战中心的Douglas Lange博士总结了研讨会上讨论的所有应用所面临的挑战。尽管许多研究探讨了机器学习系统如何被创造性的输入所操纵,但很少有努力解决如何使它们更加稳健。这样的系统可能需要对训练、测试、验证和生产进行根本性的改变。

稳健性通常以障碍物为特征,如攻击或敌人,并且可以包括许多不同的目标(即性能、安全性)。了解这些目标在系统和任务背景下的必要性和实用性,对于创建一个保证稳健性的方法至关重要。应用于机器学习系统,这可以表示为一个系统在新的数据中产生可预测的输出和可比较的性能的能力,就像它被训练出来的那样。

不确定性同时存在于操作数据和训练数据中,尽管前者在机器学习系统的设计和开发过程中被更多地认识和考虑。然而,从业人员必须期望他们的系统能够处理训练人群范围内外的输入。在军事背景下,作战应用的训练数据的供应往往比商业应用的数据更有限,在商业应用中,不知情或不愿意的用户行为可以被获取(即广告定位),这使得问题更加复杂。战争情况往往是不可观察的和新颖的,用和平时期或军事演习数据训练的模型并不总是能反映冲突的动态性质。因此,那些能够最快适应的系统最有可能获得成功。

机器学习应用的目的是学习适合训练人群的适当的模型参数集。这就需要开发一个成本函数,以衡量改变模型和噪声对该模型的影响所带来的误差有多大。由此产生的不确定性通常可以被描述为认识上的或无知的。认识性的,或系统性的不确定性,定义了总不确定性的可减少部分。统计不确定性,定义了总不确定性中不可减少的部分。此外,输入可能表现出噪声和腐败,或表现出与训练数据的有意义的变化。前者反映了物理稳健性,而后者反映了语义稳健性。最终,机器学习系统在试图描述稳健性之前必须正确表达分类器的作用。

最后,偏见是所有深度机器学习应用的一个重要考虑因素。在一个经过充分研究的应用中,研究人员通过演示斑马投射到马身上的图像,使用周期一致的对抗网络进行了图像到图像的转换[29]。对这一演示的检查表明,紧邻动物的像素也从马匹常见的草场转化为斑马常见的大草原。因此,训练中描绘的环境证实了偏见,因为这些环境并不是马和斑马可能出现的唯一环境。

许多深度机器学习应用都表现出难以简单地识别那些不属于其训练群体的输入。仅仅实现这一点就能切实提高质量和稳健性。然而,通常情况下,模型被愚弄,而他们声称对他们的发现有很高的信心。ML应用倾向于在他们经常看到的事情上表现得更好,而在他们没有看到的事情上表现得更差。例如,自动驾驶汽车是用数百万小时的真实和模拟条件下的驾驶录像来训练的。从真实世界收集的数据经常被用来改进模拟。这种方法在军事上是缺乏的,因为对手可能采用和平时期没有观察到的战术。

5.0 结论

在研讨会的开幕词中,NATO STO的信息系统技术小组主席Nikolai Stoianov博士指出,北约研究网络的力量来自其合作的商业模式。北约国家和合作伙伴选择使用他们的国家资源来定义、开展和促进合作研究和信息交流。通过将士兵和研究人员聚集在一个共同的论坛,参与者从彼此的专业知识中受益,提高整体效率,并增强联盟的集体力量。通过揭露国家努力、工业观点和居民专长之间的共同点并找到平衡点,可以获得进一步的优势。这些主题在本文报告的结果中明显可见。通过跨越网络安全、计算机科学、人工智能、自主权和军事行动的讨论,研讨会的参与者分享了深度机器学习的当前和趋势性应用,准备加强军事网络的网络安全态势。在互补的RTG中发现的相似之处反映了许多类似的挑战和机会。

深度机器学习可以通过加强数据驱动的决策和最大限度地减少人类专家的作用来改善几乎所有的数字技术和应用,形成网络态势。应用实例包括自动化软件开发(包括恶意软件);自动化协议和架构设计,包括那些来自高级规范的设计;管理网络运营的人机合作,包括虚拟化、容器化和云服务;网络功能的自主协调,如频谱管理、QoS管理和网络切片;以及网络物理系统和系统间的自主。这些应用需要一个全面和跨学科的方法,以适应数字技术的发展。

对网络环境的理解还包括对联盟或友好网络的情况了解,以及对敌方威胁的描述。在IST-129 RTG8的补充工作中,研究结果显示,深度机器学习可以加强对敌对行动的预测以及对攻击和防御场景的分析。这种理解可能会导致分布式自主代理的实现,这些代理可以感知、响应并适应其环境和突发威胁[20]。最终,深度机器学习可以更有效地利用资源,更好地利用人类专家的时间。

深度机器学习在安全关键应用中的采用仍然是一个受到严格审查的问题[30]。算法已经被证明有错误功能的倾向,例如用无害的标志物进行误导的情况。它们已经显示出对数据中毒和数据稀少攻击的脆弱性,导致了尴尬和损害。这自然促使军方探索如何利用该技术,同时保持其功能的可预测性和可靠性。最终,存在着对设计、建造、部署和维持可信赖、安全和可靠的网络物理系统的战略的关键需求[31]。

在过去的十年中,深度机器学习的加速是由几十年来计算能力的进步所推动的。高性能的硬件使得构建具有更多层次的连接和神经元的网络成为可能,从而使人们有能力对复杂现象进行建模。然而,这一趋势最近显示出回报率递减[32]。尽管硬件性价比曲线不断进步,但在计算需求变得不可行之前,只能对模型性能进行边际改善。新的硬件加速架构已被提出,以部分克服这一挑战[33]。另一方面,它已经让位于自主性的"低风险"应用,其中行动空间可以被明确定义,并产生最小的失败影响。这种方法使模型部署适合于尺寸、重量和功率受限的平台。

在研讨会与会者的讨论中,一个共同的主题是数据对任何应用的成功都至关重要。网络空间的数据采集,反其道而行之,是一个具有挑战性的命题。虽然一个组织的网络空间往往充满了丰富的数据,但以一种适合快速利用的形式和方式来暴露这些数据往往会带来许多实际的挑战。数据的来源、所有权、分类、管理、敏感性、法规、架构、模型、运输、联盟和其他考虑因素往往阻碍了能力的应用。军事行动和联盟网络的额外敏感性和多分类性质使问题进一步复杂化。现有的挑战表明,替代方法,如转移和联合学习方法,是值得追求的,并可能在没有数据转移或语义互操作性问题的情况下实现模型共享。另外,GANs和类似的新兴工具越来越有能力产生大规模的合成数据。

我们认为在所有这些方面都有一条前进的道路。深度机器学习的成功应用需要全面的、跨学科的方法,与硬件和其他数字技术的进步同步,包括改进数据采集、数据生成和数据共享的技术。深度机器学习系统本身的安全性,在所有层面都必须得到维护。这包括数据集、分类器、模型和学习到的反应,必须保护它们不被操纵。可靠性和可解释性是对建立可信赖的系统特别重要的考虑领域。最后,将深度机器学习推向战术边缘的愿望将需要在自主性、硬件尺寸、重量和功率方面进行改进。

在本文中,我们介绍了有助于约束网络安全问题空间和塑造潜在的深度机器学习解决方案的术语和观点。我们说明了深度机器学习是如何应用于网络安全的,并提出了进一步发展的机会。我们展示了北约STO内部的相关工作,并在多个应用领域中进行了比较。最后,我们强调了在军事和联盟行动环境中成功应用的一些关键考虑和发现。

成为VIP会员查看完整内容
16

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、物流运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
北约《军事系统的网络安全风险评估》技术报告
专知会员服务
23+阅读 · 4月18日
肖仰华 | 知识图谱与认知智能
开放知识图谱
11+阅读 · 2018年4月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
Arxiv
0+阅读 · 8月9日
Arxiv
0+阅读 · 8月8日
Arxiv
14+阅读 · 2021年9月21日
已删除
Arxiv
26+阅读 · 2020年3月23日
Arxiv
13+阅读 · 2018年4月18日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员