《面向网络安全的生成方法和元学习》博士论文

网络空间是支持战场物联网（IoBT）的数字通信网络，是以防御为中心的传感器、计算机、执行器和人类以数字方式连接的模式。一个安全的IoBT基础设施有助于在分布式子系统中实时实施观察、定位、决定、行动（OODA）循环。网络犯罪分子和战略对手的成功黑客行为表明，像IoBT这样的网络系统并不安全。三条工作路线展示了一条通往更强大的IoBT的道路。首先，收集了企业网络流量的基线数据集，并通过生成方法对其进行建模，允许生成真实的、合成的网络数据。接下来，通过算法制作了网络数据包的对抗性样本，以欺骗网络入侵检测系统，同时保持数据包的功能。最后，提出了一个框架，使用元学习来结合各种薄弱模型的预测能力。这导致了一个元模型在数据包的整体准确性和对抗性样本的检测率方面优于所有基线分类器。国防战略强调网络安全是保卫国土和在信息时代保持军事优势的必要条件。这项研究提供了学术观点和应用技术，以促进美国防部在信息时代的网络安全态势。

图23. 元学习框架通过智能地结合每个基础模型的预测能力来加强对对抗性攻击。对抗性训练的分类器是通过5.3所述的增强数据集进行训练。

1.1 动机

美国国防部（DoD）预计，未来的战争将主要在网络领域进行，对手包括战略竞争对手和非国家行为者。由于美国从未打过一场全面的网络战争，因此对 "道路规则 "并不十分了解[6]。敌人有可能通过已知和未知的威胁载体来攻击美国的利益。这些攻击的影响可能是非动能性的，即对信息系统的未获许可的访问或控制，或者是动能性的，意味着攻击会导致物理资产的破坏、基础设施的损坏或死亡。许多遗留的网络物理系统在建造时没有预见到网络漏洞[7]。随着战场物联网的发展，包括更多的这些系统，潜在的网络威胁暴露也在增加。想象一下，当士兵的可穿戴设备在战斗中因网络攻击而发生故障时，会出现怎样的混乱。至关重要的是，我们要在对手利用这些缺点之前，用新技术解决我们军队的网络安全问题。生成式机器学习和元学习是新兴领域，可能为网络安全研究中一些长期存在的障碍提供解决方案。

入侵检测系统（IDS）是一种阻止和防御网络攻击的方法[7]。不幸的是，IDS需要大量的数据集进行训练[2]。有机的网络攻击数据，带有标记的条目，是出了名的稀缺。NSL-KDD[8]试图纠正被广泛引用的KDD-CUP基准数据集的问题，然而，即使是改进后的版本也是过时的，而且范围有限。

生成式机器学习是人工智能的一个领域，有可能以新的方式解决未解决的问题。诸如马尔科夫链蒙特卡洛、自动编码器和生成对抗网络（GANS）和自动编码器的方法被用来估计未知的概率分布函数。对多样化和现实的生成数据的应用是迫切的，特别是对网络。生成方法提供了一个分析和综合网络数据的途径，而生成方法与元学习的结合提供了一个防止某些网络攻击的机会。

本章的其余部分介绍了三个促进美国网络系统安全的研究课题。第二章提供了一个相关主题的总体文献回顾，以及一个精心挑选的可能对读者特别有价值的来源的快速参考表。第三至五章提供了与贡献1、2和3相对应的已完成的研究手稿。以前发表的研究是第六章，最后总结了研究的主要发现以及它们对现代防御的影响。附录提供了不适合于主文件的额外信息。附录A是元学习NIDS的相关研究，不适合于所述贡献。附录B是一个参考的AFIT论文表。附录C包括支持贡献1的数据表格。

1.2 研究贡献

本论文提出了三个研究课题以支持军队安全态势的现代化。虽然每个课题都可以独立进行，但本论文采取了连续的方法，早期研究的结果增强了后来的工作。本论文的总体目标是证明在建立一个对对抗性攻击具有强大抵抗力的入侵检测系统方面取得了重大进展。

贡献1：生成真实的合成网络数据。

第一个研究目标是对现代网络数据的概率分布进行建模，并从基线分布中生成额外的、现实的数据。预定的生成模型可以是明确的，以概率分布函数的形式，或隐含的，如GAN。生成方法将在第2.2章讨论。无论怎样，模型生成的现实数据必须证明与基线数据的分布相匹配。与第4.2章中批评的NSL-KDD[8]、KDD-CUP[9]、UNSW-NB15[10]等其他基准数据集不同，生成的数据必须能够代表现代政府系统中的网络流量，包括授权和恶意行为者的样本，而且比例适当。恶意流量必须是现代网络攻击的代表，并反映原始分布中未观察到的样本。一个可能的策略是通过在敌对环境中收集的真实网络数据或在现实的高保真模拟中收集的数据来训练一个生成模型。然后，基线数据可以用来训练一个生成模型，能够从与基线相同的分布中创建新的、现实的样本。

特别是，生成模型应该强调对模式崩溃的复原力，并且应该对变量之间的宏观层面的关联性进行建模。如果成功，现实生成的网络数据将被用作创建对抗性样本的起点。扩大的、生成的数据集比小的真实数据集更受欢迎，因为它展示了生成方法的可行性，以克服新型网络攻击中的数据不足。随着网络日志数据中新现象的发现，它们将被复制到更大的数量，有利于创建对抗性样本和强大的IDS。如果生成方法不能产生现实的数据，那么目标二可以使用数量更多的基线数据来实现，而这些数据的获取是昂贵而费力的。为了支持贡献1，已经提交并接受了两篇存档的同行评审论文。网络领域生成方法的挑战和机遇》已被《2021年冬季模拟会议论文集》接受，《为训练和评估网络入侵检测系统的机器学习分类器生成现实的网络数据》已提交给《应用专家系统》。这两项工作都是由Marc Chal´e（主要作者）撰写的，委员会成员为支持论文研究做出了贡献。支持贡献1的工作在第三章和附录C中介绍。

贡献2：生成对抗性样本

第二个研究目标是产生能够躲避现代IDS的对抗性样本。对抗性样本必须使用新的技术来创建，包括适用的生成方法。对抗性样本必须超越诸如[11]的工作，强制执行网络数据的不可变方面[12]，并实现端到端的攻击。解决这一挑战可能会增加最先进的网络攻击对当前IDS的有效性，但一旦这些技术被确定，它们就可以在强大的IDS中得到解决。尽管最近在计算机视觉领域创造对抗性攻击方面取得了进展，但在网络领域产生对抗性攻击是特别具有挑战性的[12]。为了使被扰乱的互联网协议（IP）数据包能够促进端到端的网络攻击，数据包必须保持其专门的数据结构以及执行时的原始功能。虽然图像可以不受限制地被扰动，并产生一个有效的图像文件，但在互联网上传输的IP数据包在扰动过程中会被破坏，导致无效的端到端攻击。尽管最初对网络领域的对抗性攻击的研究[11] [13] [14]集中在扰乱网络数据的特征向量上，但更困难的任务是扰乱网络数据包的实际有效载荷，同时保持其原始功能[13] [15] [12]。或者，可以生成一个对抗性的特征向量，然后反向设计成一个能躲避IDS的功能性IP数据包。在努力实现端到端黑盒攻击的过程中，我们必须证明对抗性样本可以被限制在网络领域的标准内。这一目标在提交给《计算机与工业工程》的期刊文章《基于约束优化的网络入侵检测系统转移攻击的对抗性实例生成》中实现。这项工作是由Marc Chal´e（主要作者）撰写的，委员会成员为支持论文研究做出了贡献。支持贡献2的工作在第四章和附录D中介绍。

贡献3：展示一个强大的入侵检测系统

入侵检测系统在保护网络系统数据的保密性、完整性和可用性方面发挥着重要作用，但它们存在根本性的缺陷。几种流行的基于规则的IDS对恶意软件的检测率在实践中是惊人的低。一项研究发现，Zeek使用其基于规则的警报系统只检测到52%的恶意软件攻击[16]。这种乏善可陈的表现可能促使了机器学习入侵检测系统的最新发展。虽然近年来IDS的能力有所提高，但对手也在不断创新他们的方法。此外，自2005年以来，美国报告的入侵事件的比率一直在增加。大多数IDS漏洞被认为是规避攻击的结果，其中IP数据包被修改为看似无害，但实际上是有害的[17]。在现代，诸如[11]这样的规避攻击使用启发式方法来扰乱IP数据包的特征并欺骗IDS。

因此，最终的研究目标是利用GML和元学习等技术，提高基于机器学习的IDS的分类性能和鲁棒性，如[2]。通过分类性能，我们特别指出了召回率（检测率）和准确率的指标。稳健性是指算法对来自不同分布的样本进行良好的概括，而不是用于训练的样本[18]；它是当今网络环境中模型的一个越来越重要的特征。

虽然贡献2暴露了基于ML的IDS的安全漏洞，但贡献3提供了一个解决方案。这一研究目标在MADFACTS中实现： MADFACTS: Meta-learning Augmented Defense For Adversarial Cyber Techniques是一篇已完成的长篇文章，正等待提交给《计算机与安全》、《未来互联网》或《优化通讯》等刊物。这项工作是由Marc Chal´e（主要作者）撰写的，委员会成员为支持论文研究做出了贡献。支持贡献3的工作在第四章介绍。

影响。

上述研究目标对物联网的网络防御和整个国家安全有协同的影响。贡献1试图解决网络领域长期缺乏标记的高质量训练数据的问题。贡献2提供了一个技术优势，以对抗那些希望开发针对物联网的新型对抗性攻击的网络犯罪分子和对手。贡献1和贡献2的成功加强了贡献3的工作，其中一个强大的IDS击败了对抗性样本。这些成就符合军事战略的更大愿景，即在所有领域（包括网络、空间、陆地、空中和海上）实现机动性自由。在现代跨域战争中，指挥、控制、情报和识别是决策的支柱，并且越来越数字化，因此加强整个物联网的网络安全对于指挥官造成预期的影响是必不可少的。这项研究提供了一条有希望的道路，以提高对抗不断变化的攻击威胁的稳健性。

成为VIP会员查看完整内容