在人工智能(AI)的发展历程中,高质量数据对于各种深度学习模型(如 ImageNet 对 AlexNet 和 ResNet)起到了重要的推动作用。近年来,相较于设计更为复杂的神经网络结构(model-centric),人工智能社区的关注点逐渐转向了以数据为中心的方法(data-centric)。这一方法注重更有效地处理数据,以增强神经模型的性能。与此同时,图机器学习领域也取得了显著的进展。然而,对于图数据的内在特性,包括质量、多样性、安全性等方面的研究却相对较少。
近日,北邮GAMMA Lab师生发布了一篇名为“Data-centric Graph Learning: A Survey”的文章,从数据中心的视角全面回顾了图学习方法,并旨在回答三个关键问题:(1) 何时修改图数据,(2) 需要修改图数据的哪部分来充分发挥各种图模型的潜力,以及(3) 如何保护图模型免受有问题的数据影响。
标题:Data-centric Graph Learning: A Survey 作者:Yuxin Guo*, Deyu Bo*, Cheng Yang†, Zhiyuan Lu, Zhongjian Zhang, Jixi Liu, Yufei Peng, Chuan Shi† 链接:https://arxiv.org/pdf/2310.04987.pdf 简介:在过去的十年里,与图相关的研究取得了显著的进展,这得益于图模型方面的创新,包括从图核到图嵌入的多种方法,及以图神经网络为代表的最新技术。但相反,很少有研究关注图数据的内在特性,包括质量、多样性、安全性等。 人工智能的革命一般是由大量高质量数据的可用性引发的,随后才是强大的模型。一个典型的例子是ImageNet的成功,对深度卷积神经网络如AlexNet的发展产生了重大贡献。随着对数据重要性认识的不断提升,最近,人工智能社区的关注重心从以模型为中心(model-centric)的方法转向了以数据为中心(data-centric)的方法。新兴的以数据为中心的人工智能强调产生适当的数据以提高给定模型的性能。 那么,如何处理图数据才能释放图模型的全部潜力?一个好的答案可以帮助我们理解图数据与图模型之间的关系。然而,与图像和文字等欧几里得数据不同,图的不规则性质对以数据为中心的图学习提出了几个问题: 首先,我们应该何时修改图数据以使图模型受益?图数据修改可能发生在图学习的不同阶段。例如,在训练之前,我们可以启发式地扰动边,而在训练过程中,我们还可以从节点表示中估计新的图结构。其次,我们应该修改图数据的哪一部分?图数据涉及各种结构,包括边、节点、特征和标签,这些部分都在图表示学习中发挥着重要作用。最后,我们应该如何防止图模型受到有问题的图数据的影响?由于手动定义的关系和特征,图数据不可避免地会引入噪音和偏差,使得模型变得不可靠。 图1:以数据中心的图学习方法流程 本综述从以数据为中心的角度系统地回顾和分类了现有的图学习方法。具体来讲,为了回答第一个问题,我们将图学习过程分为四个阶段:准备、预处理、训练和推断,如图1所示。我们讨论了每个阶段对图数据的重要性。接下来,我们从图数据结构角度进一步对现有方法进行分类,以解决第二个问题。具体而言,我们考虑如何分别处理图数据的拓扑、特征和标签。最后,我们分析了现有图数据中可能存在的问题,包括鲁棒性、不公平性、选择偏见和异质性。我们进一步讨论了如何以以数据为中心的方式解决这些问题。本文的贡献总结如下: (1)新颖分类法。我们根据图学习流程中的各个阶段(包括预处理、训练和推断)对现有的以数据为中心的图学习方法进行分类。对于每个阶段,我们介绍了其在以数据为中心的图学习中的目标和重要性。 (2)多角度分析。我们强调了如何处理图数据中不同的数据结构,包括拓扑、特征和标签,以充分发挥给定图模型的潜力。 (3)全面讨论。我们分析了有问题的图数据对图模型的潜在影响,并讨论了如何通过以数据为中心的方式缓解这些问题。此外,我们还提出了三个可能有益于该领域发展的以数据为中心的图学习的未来方向。 表1:以数据为中心的图学习方法的分类与代表性研究 本综述的其余部分组织如下:第2章概述了以数据为中心的图学习的背景,并描述了图数据是如何手动处理的。第3-5 章分别介绍了在预处理、训练和推断阶段的以数据为中心的图学习方法。第6章介绍了图数据的潜在问题,并讨论了如何处理这些问题。最后,第7章对本文进行了总结,并提出了一些有可能有益于该领域发展的未来研究方向。