图机器学习(Graph ML)近年来取得了重大进展。由于其在处理图结构数据方面的显著能力,图机器学习技术已被广泛应用于各种领域,包括金融、医疗和交通等关键领域。尽管这些技术带来了社会效益,但近期研究突显了广泛使用图机器学习模型所带来的重大安全隐患。这些模型缺乏以安全为中心的设计,可能会产生不可靠的预测、表现出较差的泛化能力,并危及数据机密性。在金融欺诈检测等高风险场景中,这些漏洞可能会危及个人和社会。因此,优先开发安全导向的图机器学习模型以减轻这些风险并增强公众对其应用的信心是至关重要的。在这篇综述论文中,我们探讨了增强图机器学习安全性的三个关键方面:可靠性、泛化能力和机密性。我们将对每个方面的威胁进行分类和分析,分为模型威胁、数据威胁和攻击威胁三个类别。这一新颖的分类法指导了我们对有效保护策略的审查。我们的系统审查为未来开发实用的、安全导向的图机器学习模型奠定了基础。此外,我们强调了安全图机器学习实践的重要性,并提出了进一步研究这一关键领域的有前景方向。 近年来,图结构数据在包括药物发现[15]、交通预测[76]和疾病诊断[96]等广泛的现实应用中变得越来越普遍。在这些领域中,图机器学习(Graph ML)在建模这些数据和执行基于图的预测任务中起着关键作用[83],[187]。然而,随着图机器学习应用范围的扩大,人们对其潜在安全问题的担忧也在加剧[37]。如果这些问题得不到充分解决,可能会产生严重影响,尤其是在关键决策场景中[203]。例如,在金融欺诈检测中,图机器学习模型会分析交易网络,其中节点代表用户,边表示交易[151]。数据分布的变化可能会错误地将合法交易标记为欺诈[37]。此外,这些模型还可能对用户隐私构成风险[124]。这些安全问题都会严重削弱人们对金融系统的信任。
尽管社会关注日益增加[147],[183],但对图机器学习(Graph ML)安全性的全面理解仍在形成中。这种缺乏理解阻碍了研究人员和从业者系统地识别和解决与图机器学习方法相关的基本安全问题。为了缩小这一差距,我们的综述旨在解决两个关键问题:(1) 图机器学习安全问题涉及的主要方面是什么?(2) 在每个方面可能出现哪些具体威胁,以及如何有效应对这些威胁?为了解决第一个问题,我们引入了一种新颖的分类法,有助于对图机器学习中的安全问题进行全面分类。为了解答第二个问题,我们对在我们分类法中确定的每个方面的潜在威胁及其相应的防护措施进行了系统回顾。
我们现在深入探讨第一个问题,确定图机器学习(Graph ML)安全问题的三个关键方面:可靠性、泛化能力和机密性。我们分别讨论每个方面如下:
(1) 可靠性:图机器学习模型经常面临低质量训练数据的挑战,这可能源于数据噪声[47], [188]或恶意攻击[13], [49]。在此,我们将可靠性定义为模型即使在面对劣质输入时也能始终产生高质量输出的能力。可靠性在图机器学习任务中高质量训练数据稀缺时尤为关键[6], [11]。例如,在药物发现中,图机器学习模型预测新化合物的化学性质,并以分子图的形式建模[91]。这包括评估毒性以排除有严重副作用的药物[115]。由于实验验证成本高昂,高质量的训练数据标签难以获得。因此,在面对低质量数据时保持模型的可靠性对于确保准确预测至关重要[75]。 (2) 泛化能力:泛化能力指图机器学习模型在各种场景中,尤其是在基础数据分布发生变化时,仍能表现良好的能力[91]。这在新出现的未见过的图数据频繁出现的环境中特别重要[175]。例如,在疫情预防中,准确预测未来感染病例对于有效分配医疗资源至关重要[198]。图机器学习广泛用于利用不同地理区域(如县、市、州或国家)之间的迁移路径连接的拓扑数据来预测确诊病例[145]。然而,疫情通常会在不同地区同步爆发,导致图机器学习模型的训练和推理数据来自不同区域[128]。这些模型缺乏泛化能力可能导致预测的感染率与实际情况显著偏离,可能导致医疗资源的错误分配。 (3) 机密性:这一方面侧重于保护图机器学习模型的完整性和其处理的敏感数据的隐私[35], [43]。机密性在处理个人数据的图机器学习应用中特别重要[203]。例如,图机器学习广泛用于管理电子健康记录(EHR),用于疾病诊断和治疗预测等任务[107]。在这些应用中,各种信息(如患者姓名和诊断结果)被互相连接形成异构图[103]。然而,图机器学习中的机密性面临的一个重大挑战是消息传递机制的广泛使用,这促进了节点之间的信息流动[9], [37], [140]。这个过程可能会无意中让敏感数据到达恶意节点,导致未经授权实体可能泄露私人信息,从而危及患者隐私[54]。 我们接着通过识别三种类型的威胁来解决第二个问题,这些威胁会损害图机器学习的安全性,适用于之前讨论的所有方面。具体来说,威胁包括:(1) 模型威胁,源于为图结构设计的固有学习机制,如大多数图机器学习模型中普遍存在的消息传递;(2) 数据威胁,源于图拓扑中节点之间的复杂相互关系;(3) 攻击威胁,因图机器学习模型在面对对抗性攻击时的脆弱性而发生。在本综述中,我们旨在全面理解每种威胁类型的起源,并系统概述当前的防护技术以减轻这些风险。 贡献:在本综述中,我们对图机器学习中的安全问题进行了全面调查,并以结构化框架组织了图机器学习安全的关键方面(如图1所示)。此外,我们概述了每个方面的三种安全威胁,并深入探讨了在图机器学习背景下解决这些问题的具体防护技术。总之,我们的工作对研究社区做出了三项重要贡献。
图机器学习安全性的新分类法:我们引入了一种新的分类法来分类图机器学习中的安全问题,详细说明了三个核心方面:可靠性、泛化能力和机密性。
威胁与防护措施的全面概述:我们识别了所有安全方面共有的三种不同类型的威胁。在此基础上,我们进一步探讨了针对每种特定威胁的防护技术。
图机器学习安全性的未来研究潜力:我们探讨了在图机器学习领域提升安全性方面的未解决挑战和新兴机会,旨在激发未来的研究项目。
与其他综述的比较:已有一些综述调查了图机器学习的不同类型的安全问题及其对策[61], [80], [91], [147], [167], [182], [210]。然而,这些综述通常缺乏对图机器学习安全性的全面理解。其他相关综述则侧重于一个不同但相关的话题:可信度[37], [203]。大多数这些研究主要关注对抗性攻击,而通常忽视了专门针对图机器学习和图数据的安全问题。与上述工作不同,在本综述中,我们不仅借助新提出的分类法系统回顾了图机器学习的更广泛的安全概念,还详细阐述了不同类型的威胁及其适当的防护技术。我们在表1中提供了详细的差异比较。
由于图数据的复杂性,获取高质量的训练数据是一个重大挑战[47], [49]。当模型在质量较差的数据上训练时,其性能可能会受到严重影响[188]。我们将可靠性定义为模型即使在低质量数据上训练时也能保持一致性能的能力。缺乏可靠性会使模型面临噪声或被篡改数据带来的风险,可能导致错误预测。在决策过程中,这个问题尤为关键,因为这种不准确可能导致不可接受的结果[42], [67]。例如,在金融欺诈检测中,准确识别欺诈交易至关重要。缺乏可靠性的模型可能无法检测到欺诈活动,或错误地将合法交易标记为欺诈,从而导致财务损失。因此,增强图机器学习模型的可靠性对于确保其在关键应用中的安全性和可信赖性至关重要,最终减少错误结果的风险[120], [126]。
图机器学习的可靠性可能从多个角度受到影响。首先,模型在处理不确定数据方面的固有限制可能导致在不熟悉情况下的过度自信预测[65]。与图像或文本数据不同,图数据涉及节点之间的复杂交互,这些连接中的不确定性会影响模型预测[226]。其次,训练数据中的异常情况,例如显著偏离典型分布的节点和图,对模型性能和可靠性构成重大威胁[6], [47]。由于图机器学习模型从相邻节点聚合信息,异常节点可能影响整个图中学习到的表示,进而影响整体模型可靠性。第三,毒化攻击涉及将恶意构造的数据插入训练集以破坏模型的可靠性[93]。在图拓扑中,攻击者可以操纵少数节点以不利地影响其他远处节点,使这些攻击特别难以检测[80]。
大多数现有的图机器学习模型是基于推理时的数据分布与训练时相同的假设而开发的[91]。然而,由于图数据结构的复杂性,这一假设在实践中常常不成立。因此,泛化能力——即在不同数据分布中保持模型性能一致的能力——对于图机器学习模型的安全部署至关重要。例如,在药物发现中,图机器学习模型通常负责预测新药的毒性,这些新药可能与训练数据分布显著不同。未能有效地泛化到这些新药会导致不可靠的预测,从而可能危及医疗治疗的开发[30], [63]。
尽管泛化能力对于确保图机器学习模型的安全性至关重要,但实现一致模型泛化能力的过程中存在各种威胁。首先,模型本身的威胁源于其设计中的固有限制,导致模型可能无法有效适应训练过程中遇到的目标(未标记)分布[111], [222]。当训练涉及来自不同分布的数据时,设计增强泛化能力的模型对于图机器学习模型的广泛应用至关重要[110]。其次,数据威胁源于在训练过程中未曾见过的数据分布,可能会削弱图机器学习模型在新场景中的表现[92]。由于在训练过程中无法观测到目标分布,图机器学习模型在有限数据的情况下提升泛化能力变得具有挑战性。第三,规避攻击对图机器学习模型的泛化能力构成重大威胁。这些攻击在推理过程中故意操纵输入数据以引发预测错误并损害模型安全性[52], [98]。这些威胁从多个角度损害模型的泛化能力,因此需要量身定制的防护技术来解决这些问题。下文中,我们介绍了一些增强图机器学习模型泛化能力的策略。
在图机器学习(Graph ML)中,保密性包括对数据、模型预测和模型本身的敏感信息的保护【122】。这种保护对于确保用户隐私和满足法律合规性要求至关重要【183】。例如,在使用图机器学习模型进行社交网络用户分类时,必须防止在训练和推理阶段无意泄露用户信息【22】。
在这里,我们介绍如图4所示的三种保密性威胁。首先,模型威胁来源于模型固有的设计缺陷,这些缺陷可能通过模型的预测或架构泄露敏感信息,从而引发隐私问题【169】。这一问题在基于图的模型中特别明显,因为消息传递机制可能无意中暴露来自邻近节点的敏感信息【22】【41】【141】。其次,当训练数据分布在多个源时,数据威胁会出现,可能导致敏感信息的无意曝光【70】。鉴于图数据的结构性,确保每个数据源的保密性是一项重大挑战【5】【87】。第三,攻击威胁直接通过未经授权的模型克隆或功能克隆危害模型的保密性【185】。这不仅侵犯了隐私,还违反了知识产权,因为被复制的模型可能会在未经许可的情况下被使用或出售【43】【166】。
结论
在这篇综述中,我们对快速发展的图机器学习(Graph ML)领域的安全性进行了全面回顾。由于安全问题日益加剧,这一主题正受到越来越多的关注。我们对Graph ML应用中的三个关键安全方面进行了结构化分析:可靠性、可推广性和保密性。为了增强安全性,我们将每个方面的威胁分类为三种主要类型:数据威胁、模型威胁和攻击威胁,每种威胁都对Graph ML模型的安全性提出了独特的挑战。对于每个识别出的威胁,我们详细介绍了具体的解决方案,提供了应对这些安全挑战的研究努力的详尽汇编。我们的讨论将这些见解综合成一个统一的框架,旨在加深对Graph ML安全性考虑的理解,并引导未来在这一重要领域的研究。此外,我们还强调了实际应用并提出了未来研究的方向。通过这篇综述,我们的目标不仅是总结现有的Graph ML安全研究,还希望鼓励进一步的研究,以确保Graph ML技术能够安全地开发和实施。