在人工智能(AI)的发展历程中,高质量数据对于各种深度学习模型(如 ImageNet 对 AlexNet 和 ResNet)起到了重要的推动作用。近年来,相较于设计更为复杂的神经网络结构(model-centric),人工智能社区的关注点逐渐转向了以数据为中心的方法(data-centric)。这一方法注重更有效地处理数据,以增强神经模型的性能。与此同时,图机器学习领域也取得了显著的进展。然而,对于图数据的内在特性,包括质量、多样性、安全性等方面的研究却相对较少。

近日,北邮GAMMA Lab师生发布了一篇名为“Data-centric Graph Learning: A Survey”的文章,从数据中心的视角全面回顾了图学习方法,并旨在回答三个关键问题:(1) 何时修改图数据,(2) 需要修改图数据的哪部分来充分发挥各种图模型的潜力,以及(3) 如何保护图模型免受有问题的数据影响。

标题:Data-centric Graph Learning: A Survey 作者:Yuxin Guo*, Deyu Bo*, Cheng Yang†, Zhiyuan Lu, Zhongjian Zhang, Jixi Liu, Yufei Peng, Chuan Shi† 链接:https://arxiv.org/pdf/2310.04987.pdf 简介:在过去的十年里,与图相关的研究取得了显著的进展,这得益于图模型方面的创新,包括从图核到图嵌入的多种方法,及以图神经网络为代表的最新技术。但相反,很少有研究关注图数据的内在特性,包括质量、多样性、安全性等。 人工智能的革命一般是由大量高质量数据的可用性引发的,随后才是强大的模型。一个典型的例子是ImageNet的成功,对深度卷积神经网络如AlexNet的发展产生了重大贡献。随着对数据重要性认识的不断提升,最近,人工智能社区的关注重心从以模型为中心(model-centric)的方法转向了以数据为中心(data-centric)的方法。新兴的以数据为中心的人工智能强调产生适当的数据以提高给定模型的性能。 那么,如何处理图数据才能释放图模型的全部潜力?一个好的答案可以帮助我们理解图数据与图模型之间的关系。然而,与图像和文字等欧几里得数据不同,图的不规则性质对以数据为中心的图学习提出了几个问题: 首先,我们应该何时修改图数据以使图模型受益?图数据修改可能发生在图学习的不同阶段。例如,在训练之前,我们可以启发式地扰动边,而在训练过程中,我们还可以从节点表示中估计新的图结构。其次,我们应该修改图数据的哪一部分?图数据涉及各种结构,包括边、节点、特征和标签,这些部分都在图表示学习中发挥着重要作用。最后,我们应该如何防止图模型受到有问题的图数据的影响?由于手动定义的关系和特征,图数据不可避免地会引入噪音和偏差,使得模型变得不可靠。 图1:以数据中心的图学习方法流程 本综述从以数据为中心的角度系统地回顾和分类了现有的图学习方法。具体来讲,为了回答第一个问题,我们将图学习过程分为四个阶段:准备、预处理、训练和推断,如图1所示。我们讨论了每个阶段对图数据的重要性。接下来,我们从图数据结构角度进一步对现有方法进行分类,以解决第二个问题。具体而言,我们考虑如何分别处理图数据的拓扑、特征和标签。最后,我们分析了现有图数据中可能存在的问题,包括鲁棒性、不公平性、选择偏见和异质性。我们进一步讨论了如何以以数据为中心的方式解决这些问题。本文的贡献总结如下: (1)新颖分类法。我们根据图学习流程中的各个阶段(包括预处理、训练和推断)对现有的以数据为中心的图学习方法进行分类。对于每个阶段,我们介绍了其在以数据为中心的图学习中的目标和重要性。 (2)多角度分析。我们强调了如何处理图数据中不同的数据结构,包括拓扑、特征和标签,以充分发挥给定图模型的潜力。 (3)全面讨论。我们分析了有问题的图数据对图模型的潜在影响,并讨论了如何通过以数据为中心的方式缓解这些问题。此外,我们还提出了三个可能有益于该领域发展的以数据为中心的图学习的未来方向。 表1:以数据为中心的图学习方法的分类与代表性研究 本综述的其余部分组织如下:第2章概述了以数据为中心的图学习的背景,并描述了图数据是如何手动处理的。第3-5 章分别介绍了在预处理、训练和推断阶段的以数据为中心的图学习方法。第6章介绍了图数据的潜在问题,并讨论了如何处理这些问题。最后,第7章对本文进行了总结,并提出了一些有可能有益于该领域发展的未来研究方向。

成为VIP会员查看完整内容
40

相关内容

深度学习和基础模型在时间序列预测中的综述
专知会员服务
45+阅读 · 1月26日
基于人工反馈的强化学习综述
专知会员服务
60+阅读 · 2023年12月25日
《以数据为中心的图学习》综述
专知会员服务
51+阅读 · 2023年10月11日
计算机视觉中的终身学习综述
专知会员服务
63+阅读 · 2023年7月13日
基于深度学习的图像融合方法综述
专知会员服务
56+阅读 · 2023年1月25日
深度学习在数学推理中的应用综述
专知会员服务
43+阅读 · 2022年12月25日
以语音为中心的可信机器学习:隐私、安全和公平综述
专知会员服务
18+阅读 · 2022年12月20日
强化学习可解释性基础问题探索和方法综述
专知会员服务
90+阅读 · 2022年1月16日
【硬核书】数据科学,282页pdf
专知
23+阅读 · 2022年11月29日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
深度学习和基础模型在时间序列预测中的综述
专知会员服务
45+阅读 · 1月26日
基于人工反馈的强化学习综述
专知会员服务
60+阅读 · 2023年12月25日
《以数据为中心的图学习》综述
专知会员服务
51+阅读 · 2023年10月11日
计算机视觉中的终身学习综述
专知会员服务
63+阅读 · 2023年7月13日
基于深度学习的图像融合方法综述
专知会员服务
56+阅读 · 2023年1月25日
深度学习在数学推理中的应用综述
专知会员服务
43+阅读 · 2022年12月25日
以语音为中心的可信机器学习:隐私、安全和公平综述
专知会员服务
18+阅读 · 2022年12月20日
强化学习可解释性基础问题探索和方法综述
专知会员服务
90+阅读 · 2022年1月16日
相关资讯
【硬核书】数据科学,282页pdf
专知
23+阅读 · 2022年11月29日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
相关论文
微信扫码咨询专知VIP会员