GNN如何落地？北大等《真实世界中图神经网络》综述，详述GNN的不平衡、噪声、隐私及OOD挑战

最新《图神经网络》综述

图结构数据在多个领域展现了其普遍性和广泛的适用性，例如社交网络分析、生物化学、金融欺诈检测以及网络安全等。在利用图神经网络（Graph Neural Networks, GNNs）在这些领域取得显著成功方面，已经取得了重要进展。然而，在现实世界场景中，模型的训练环境往往远非理想，由于包括数据分布的不平衡、错误数据中噪声的存在、敏感信息的隐私保护以及对于分布外（Out-of-Distribution, OOD）场景的泛化能力等多种不利因素，导致GNN模型的性能大幅下降。为了解决这些问题，已经投入了大量努力来改进GNN模型在实际现实世界场景中的性能，以及提高它们的可靠性和鲁棒性。在本文中，我们提出了一份全面的综述，系统性地回顾了现有的GNN模型，着重于解决四个提及的现实世界挑战，包括在许多现有综述未考虑的实际场景中的不平衡、噪声、隐私和OOD问题。具体来说，我们首先强调现有GNN面临的四大关键挑战，为我们探索现实世界的GNN模型铺平道路。随后，我们提供了这四个方面的详细讨论，分析这些解决方案如何有助于提高GNN模型的可靠性和鲁棒性。最后但同样重要的是，我们概述了有前景的方向，并在该领域提供了未来的视角。

以节点和边代表相互连接的实体和关系的图结构数据，具有固有的复杂性和多功能性。图的互连特性使其能够模拟实体及其互动在其中扮演关键角色的广泛现实世界场景。分析图数据极为重要，因为它使我们能够洞察复杂模式、揭示隐藏结构，并理解互联系统的动态[1]、[2]。图数据的适用性横跨各个领域；例如，在社交网络分析中，图可以代表个体之间的关系[3]，在生物信息学中，分子结构可以被建模为图[4]，而且交通网络也可以被表达为图以优化路线和物流[5]。这些例子强调了图数据分析在解决不同领域中的多样化挑战中的重要性和广泛应用性。最近，图数据分析的格局已经被广泛采纳和图神经网络（Graph Neural Networks, GNNs）的显著成功所显著塑造[6]-[9]。GNNs已成为图学习的基石，在各种应用中展示出非凡的性能。GNNs背后的基本思想在于它们通过迭代地聚合和更新邻近节点的信息，捕捉图结构数据内的复杂关系[10]。这使得GNNs能够学习节点的有意义表征，捕捉图中的局部和全局模式[1]。GNNs的多功能性和有效性在各种现实世界应用中被突出展示。在电商平台，如阿里巴巴[11]利用GNNs理解用户行为，从而实现个性化产品推荐并提高用户整体参与度。社交媒体如Pinterest[12]利用GNNs进行内容推荐，成功地将用户与相关且吸引人的内容联系起来。此外，GNNs在模拟复杂物理系统[13]、[14]和加速药物发现过程[15]、[16]等场景中取得了显著成功。尽管当前GNN模型表现出色，但必须认识到它们的训练通常发生在理想化的环境中，其中训练数据是干净、标准化且全面的。然而，在现实世界场景中，GNN模型通常面临各种挑战，这些挑战显著地损害了它们的性能，甚至可能导致模型崩溃[17]、[18]。理想化训练条件与现实世界挑战之间的这种差异构成了GNNs部署中的一个关键问题。例如，在金融交易中的欺诈检测[19]，欺诈案例相对于非欺诈案例的稀缺性导致了数据集不平衡。由于数据不平衡问题，GNNs可能难以有效学习与欺诈相关的模式。在生物信息学[20]中，生物数据中的实验错误或异常可能引入噪声，使GNNs难以准确预测分子结构或识别模式。在社交网络分析[21]中，GNN模型必须在从网络中提取有意义见解与保护用户隐私之间找到微妙的平衡。此外，在网络安全[22]中，用于检测网络威胁的GNNs可能在面对新型、以前未见过的分布外（OOD）攻击时遇到困难。图1中的示例性示例进一步阐明了现实世界社交网络场景中遇到的挑战。这些现实世界的例子强调了GNN模型面临的各种不利挑战的脆弱性，突显了为GNNs开发可靠和鲁棒解决方案的重要性。

为了应对GNN模型在现实世界场景中面临的众多挑战，研究者们投入了大量的努力来解决这些不利因素。为了全面和系统地总结在现实世界场景中采用的方法论，我们在本文中提出了一份彻底的综述。这份综述主要关注为解决GNN模型面对的四种普遍现实世界条件：不平衡、噪声、隐私和分布外问题而设计的解决方案。通过整合现有的研究努力，这份综述旨在提供一个关于当前形势的全面概述。此外，我们旨在展示可能的研究前沿，可以指导研究者回顾、总结，并制定未来策略以提高GNN模型在实际应用中的可靠性和鲁棒性。本综述与现有综述的不同之处。到目前为止，已经有几篇文献综述从不同方面深入探讨了现实世界中的GNN[17]、[18]、[23]-[25]，它们与我们的研究密切相关。虽然这些综述与我们的工作有关，但它们在特定焦点上也显示出差异。例如，Wu等人[23]关注GNN模型的三个方面：可靠性、可解释性和隐私。Dai等人[18]进行了更详细的讨论，涵盖隐私、鲁棒性、公平性和可解释性。Zhang等人[17]，在[18]的基础上，探讨了问责性和环境福祉的新兴话题。这三项并行工作以信任的GNN为中心，从创建更可靠的AI系统的角度出发。与这些工作不同，我们的综述源于现实世界的考虑，专注于实际场景。此外，Oneto等人[24]，在信任基础上扩展，涵盖了更宏观的元素，如在图上保证自动化操作，旨在实现更智能和负责任的GNN模型。据我们所知，与我们的综述最为接近的是[25]，它从固有噪声、分布偏移和对抗攻击的角度总结了可靠的图学习。除此之外，我们的综述还涉及了现实世界场景中数据不平衡和隐私的普遍问题。值得注意的是，他们的综述[18]只涵盖了到2022年的方法，缺乏对过去两年最新发展的覆盖。

我们的贡献。这份综述旨在全面总结GNN模型在现实世界中的进展，同时为未来的探索铺平道路。它为研究者和实践者提供了一个概述和实际场景中GNN的最新发展，成为一份宝贵的资源。本综述的主要贡献如下：

系统分类。提出了一个新的分类法，系统地对现有的现实世界GNN模型进行分类，主要关注于解决不平衡、噪声、隐私和分布外问题的模型，并展示代表性方法。

广泛回顾。对于本综述覆盖的每个类别，我们总结其基本原则和组成部分，并提供代表性算法的详细见解，随后进行系统讨论其发现。

未来展望。我们识别了当前现实世界GNN模型相关的限制和挑战，并概述了潜在的研究方向，提供了对未来研究途径的新视角。

分类法

为了深入了解现实世界场景中GNN模型，我们重点关注了关键的研究努力，深入探讨了它们的动机，并简洁地总结了它们的主要技术贡献。本文的总体结构展示在图2中。这份综述建立了一个新的分类法，将这些工作分为四个不同的类别：不平衡、噪声、隐私和分布外。这些类别为跨多种场景审查和分析这些工作提供了一个全面的框架。我们将简要概述这四个现实世界因素： * 图数据中的不平衡指的是图内类别或标签分布极不均匀的情况[26]。解决不平衡的关键思想是确保学习过程不偏向多数类别，使模型能够有效捕捉与少数类别相关的模式。这涉及到制定策略，防止在训练过程中，主导节点或类别掩盖少数节点或类别的贡献。处理类别不平衡问题通常采用三个基本原则。第一个是重平衡策略，通过特定技术达到不同类别的样本或损失函数的平衡情况[26]、[30]。第二个是基于增强的策略，旨在通过额外信息增强模型训练[35]、[37]。最后一个是模块增强策略，旨在增强网络模块在不平衡学习中的表征学习[40]、[117]。

图数据中的噪声指图内含有的不相关、错误或误导信息，这可能对GNN模型的性能产生不利影响[42]。解决噪声的基本思想是开发策略，减轻错误信息在训练过程中的影响，准确捕捉图内的基本模式。这涉及到区分两种主要类型的噪声：标签噪声和结构噪声。标签噪声[42]、[49]涉及图内节点或边的分配标签的不准确性或错误。这可能是由于数据标注过程中的人为错误或数据收集过程中的不一致性导致的。另一方面，结构噪声[56]、[59]、[65]与图的拓扑结构的不一致性或不准确性相关。这可能包括节点之间缺失或错误的连接，破坏图内的真实关系。

图数据中的隐私涉及保护图内节点或边相关的敏感信息，确保这些数据的保密性和完整性得到维护[118]。有效的图学习中，隐私成为一个关键考虑因素，因为在训练和推理阶段可能会暴露个人或机密细节。解决隐私问题的基本思想是开发策略，在从图中提取有意义的见解和敏感信息保护之间找到平衡。这涉及到识别两个主要类别：隐私攻击和隐私保护。隐私攻击[71]、[74]、[86]涉及利用图数据中的漏洞来揭露有关个人或实体的敏感信息的尝试。隐私保护[81]、[82]、[119]专注于开发机制和技术以保护图中的敏感信息，确保即使访问到某些数据部分，也难以披露私人细节。

分布外（OOD）在图数据中指的是与模型训练阶段遇到的数据分布显著偏离的实例或模式[120]。在图学习中，OOD场景涉及遇到与模型训练期间观察到的情况有显著差异的图实例。解决图数据中的OOD的基本思想是赋予模型识别和处理训练期间未见分布的实例的能力。这涉及到识别两个主要类别：OOD检测和OOD泛化。OOD检测[87]、[95]、[99]专注于开发技术，识别图数据中不符合训练期间学习分布的实例。这通常涉及利用异常检测方法或纳入不确定性估计机制来标记与训练数据不一致的特征的实例。OOD泛化[103]、[113]旨在提高模型对偏离训练分布的实例进行准确预测的能力。目标是使GNN模型即使面对新颖、未见过的图实例也能做出可靠的预测。

总结

本文提供了一个全面的概述，讨论了现实世界中的GNN是如何解决四个关键挑战的：不平衡、噪声、隐私和OOD。这些方面在大多数文献综述中往往被忽视。我们首先讨论了现有GNN模型的脆弱性和局限性，揭示了关键的挑战。随后，我们细致地介绍了现有GNN模型解决每个关键因素的框架和原则，并进行了详细分类。我们还突出了代表性工作的关键技术贡献，并以一些探索性讨论作为总结。尽管在解决现实世界中的GNN问题上取得了显著进展，但在这个领域未来研究的方向仍然充满希望，我们在这里进一步分析：

提升可扩展性。现有研究主要关注小规模图数据集中的不平衡、噪声、隐私和OOD问题，与现实世界中更普遍的大规模图数据集之间存在相当大的差距。在庞大的大规模图中，这些问题变得更加复杂，对模型设计的性能和效率要求更高。例如，G2GNN[37]通过计算图相似性，使用图核构建图的图来缓解不平衡问题，但图核的使用和成对相似性计算限制了它对于庞大和大规模图的适用性。此外，探索在小规模图上进行预训练然后泛化到不平衡、噪声或分布外的大规模图是一个有趣且重要的方向。

提高可解释性。GNN在药物发现、医疗决策和交通规划等许多现实世界应用中，要求模型具有高度的可解释性。尽管存在一些已经在类不平衡和OOD泛化等现实世界场景中取得了很好性能的现有方法，但模型可解释性的探索仍然有限。提供预测结果的解释或决策过程对于提高模型的可靠性和防御攻击至关重要[197]。例如，SIGNET[175]通过最大化构建的多视图子图的互信息来推断图级异常分数和子图级解释，提供了一个可靠的图级异常检测框架。将内置可解释性[198]、事后解释[199]、因果发现[200]和反事实解释[201]等技术整合到现实世界GNN模型中是一个有前景的研究方向，可以作为其在关键和私密场景中应用的保障。

更多理论保证。建立理论保证对于开发可靠的现实世界GNN模型至关重要。然而，之前对GNN的理论理解主要集中在它们的表达能力上[202]、[203]，而GNN在复杂现实世界场景如噪声干扰和OOD泛化中的理论保证仍然未被充分探索。对这些场景的理论分析可以验证GNN模型处理自然干扰或蓄意攻击的能力，促进它们在安全关键应用中的部署。例如，最近GraphGuard[204]为图结构和节点特征的扰动提供了理论上的防御保证，用于图分类，展示了模型对有限数量攻击的可靠性。对更多现实世界场景如类不平衡和标签噪声进行理论保证的研究，并进一步提供一个统一的理论分析框架，对于GNN在关键现实世界上下文中的更广泛应用具有重要意义。

全面基准和通用模型。这些现实世界场景通常单独研究，很少全面考虑。现有模型大多为特定场景设计和优化，在那些情境下表现良好，但在许多其他场景下失败。例如，为图域适应设计的UDA-GCN[187]，在具有噪声标签的图迁移学习中失败，这是一个更复杂和现实的场景[146]。因此，提出一个全面的现实世界图基准是必要的，它可以系统地评估模型解决各种现实世界挑战的能力，并提供一个综合得分。这个基准可以显著推进图神经网络模型在现实世界应用中的发展和公平比较。同时，利用这个基准，开发一个具有高综合得分的普遍适用和鲁棒的模型是一个非常有前景的方向。

更多现实应用。为了在多个领域中更多现实世界应用的发展，开发更现实的GNN模型是重要的。例如，GNN被用于分析蛋白质-蛋白质相互作用网络[205]。这些网络可能高度不平衡，一些蛋白质比其他蛋白质更常见。GNN有助于识别新的相互作用，这对于理解疾病和开发新药至关重要。此外，当应用于新的有机体或研究不足的蛋白质时，模型可能面临OOD数据。在金融领域，GNN在检测大型复杂金融网络中的欺诈交易中非常有效[131]。欺诈交易通常很少见（类不平衡）并且可能以OOD模式出现。GNN可以分析道路网络，为自动驾驶车辆优化路线[206]。交通条件的变化和道路封闭提出了OOD挑战。因此，现实的GNN模型被高度期待能够通过采用在线学习技术，适应新的交通数据和变化的环境。

成为VIP会员查看完整内容