题目:Graph Mining for Cybersecurity: A Survey 期刊:ACM Transactions on Knowledge Discovery from Data 论文链接:https://dl.acm.org/doi/10.1145/3610228
一. 引言:
随着互联网的发展,各种网络攻击不断发生,不仅给个人和企业带来巨大损失,也对国家构成严重威胁。网络安全已成为影响全球风险的关键因素,引起了学术界和业界的广泛关注。为了对抗网络攻击,基于ML的方法已被广泛用于网络安全应用。尽管这些基于ML的方法在网络安全应用中取得了成功,但现实世界的网络实体之间存在许多显式或隐式的关联,如Android应用程序中的API调用关系,这可以表征网络犯罪分子的结构模式。传统的基于ML的方法很难捕捉到这些相关性,这极大地降低了某些任务的性能。图挖掘技术善于挖掘网络实体的语义信息和空间相关性,以更好地检测网络攻击,近年来被越来越多地应用于网络安全。本文是一篇针对基于图的网络安全应用的综述性文章,它可以为快速设计基于图挖掘的网络安全解决方案提供总体参考,也可以帮助后期研究人员避免重复工作。 本综述组织如下:
二. 网络安全基础: 在本综述中,网络安全任务的详细分类如图1所示。具体来说,我们将网络安全任务分为两大类,即应用程序安全和网络基础设施安全。网络基础设施安全侧重于保护互联网的关键基础设施和组件,如域名系统(DNS)、网络链路和路由器,以确保互联网在值得信赖的环境中工作。我们进一步在网络和系统层面对网络基础设施安全进行了分类,其中包括特定的网络和系统安全任务 (例如僵尸网络检测和区块链安全)。应用程序安全旨在保护运行在网络基础设施之上的各种应用程序的安全,并将其进一步划分为认知安全和交易安全。认知安全主要关注各种网络应用(如假新闻和垃圾评论)影响人类认知的安全问题,而交易安全则强调威胁人类资产和金融秩序的在线交易(如金融欺诈和地下市场)中的安全问题。
三. 图挖掘技术基础
根据网络安全中使用的图挖掘技术,我们将现有的方法分为两大类。(1) 统计特征。这类方法基于人工构建的高维稀疏统计特征。根据是否利用图的属性信息,统计特征进一步分为结构特征和属性特征。(2) 图嵌入。与统计特征不同,图嵌入将特征向量从稀疏转换为密集,并自动保留结构和属性信息。我们从三个角度给出了图挖掘方法的分类:结构/属性(是否使用属性信息)、浅层/深层(是否使用深度学习)和同构/异构(是否关注异构图)。这些分类法可以从全面的角度关联不同网络安全任务的特征。例如,一些网络安全任务(如僵尸网络检测)对结构特征敏感,而其他任务(如欺诈检测)则更关注属性信息;恶意软件分析,地下市场分析通常在异构图上进行,函数调用关系通常被构造为同构图。图4给出了网络安全中使用的图挖掘技术的详细分类。
四. 图挖掘技术用于网络安全的一般步骤
基于图的网络安全解决方案的一般过程主要包括五个步骤。首先,我们应该关注各种网络攻击中的一个特定的网络安全任务(如僵尸网络检测),并分析任务属性,给出明确的任务划分。然后,对于混合了各种实体的复杂网络空间,我们应该收集和处理支持任务属性的数据。基于任务分解和处理后的数据,可以构建针对特定应用的图结构,捕捉相关网络实体之间丰富的交互,这也是关键的一步,表2给出了一些常用的图结构。接下来,应该为这项任务仔细设计一个优化模型。最后,将通过相应的指标对所提出的模型进行评估,并在现实世界场景中进一步部署。
五. 基于图挖掘技术的网络安全方案
基于图1对网络安全任务的分类,本节依次阐述了各种网络安全任务中使用的图挖掘技术。对于每个任务,我们总结了常用图类型,图方法,任务级别以及相应论文 (如表5所示)。我们也直观展示了每个任务中图挖掘技术的一般应用流程(如图8所示)。更多详细内容请参考综述完整版本。
六. 开源数据集和工具包
本综述也总结了图挖掘用于网络安全的开源数据集(表7(部分))和工具包。图挖掘工具包包括PYG,CogDL,DGL,OpenHGNN,GammaGL等。网络安全数据收集工具包括Twitter Search API,Snopes,VirusTotal等。
七. 未来研究方向
本综述总结了五大未来的研究方向。主要包括: