在这篇综述中,我们深入探讨了使用图神经网络(GNNs)进行表格数据学习(TDL)的领域,这是一个深度学习方法在分类和回归任务中相比传统方法表现出越来越优越性能的领域。综述强调了深度神经TDL方法的一个关键差距:数据实例和特征值之间潜在关联的欠表达。GNNs凭借其固有的模拟表格数据不同元素之间复杂关系和交互的能力,已经在各种TDL领域引起了显著的兴趣和应用。我们的综述提供了一项对设计和实现TDL用GNN(GNN4TDL)方法的系统性回顾。它包括对基础方面的详细调查和基于GNN的TDL方法的概述,提供了对其不断发展的领域的洞察。我们提出了一个全面的分类学,重点是构建图结构和在基于GNN的TDL方法中的表示学习。此外,综述还检查了各种训练计划,强调了整合辅助任务以增强实例表示的有效性。我们讨论的一个关键部分专门用于GNN在一系列GNN4TDL情景中的实际应用,展示了它们的多功能性和影响力。最后,我们讨论了限制并提出了未来的研究方向,旨在促进GNN4TDL的进步。这篇综述为研究人员和实践者提供了资源,提供了对GNN在革新TDL中角色的深入理解,并指向了这个有前景领域未来的创新。
近年来,基于深度学习的表格数据学习(TDL)方法,例如分类和回归,表现出了令人充满希望的性能。然而,尽管在从原始表格记录中学习有效特征表示方面有很大能力,深度神经TDL在数据实例和特征值之间的潜在相关性建模上表现薄弱。通过建模高阶实例-特征关系、高阶特征交互和数据实例之间的多关系相关性,已显示可以改进TDL的预测性能。作为自然地建模不同数据实体之间的关系和交互的对策,图神经网络(GNNs)近来已经受到极大关注。通过适当地从输入表格数据构建图结构,GNNs可以学习数据元素之间的潜在相关性,并为预测任务生成有效的特征表示。受到GNNs在自然语言处理和推荐系统上的成功启发,开发用于表格数据学习的图神经网络(GNN4TDL)的趋势也在增加。目前,已有一些早期研究努力尝试将现有的GNN方法应用于表格数据学习。一些非常近期的研究也开始探索特定于TDL的GNNs。这些研究几乎涵盖了所有TDL主题和应用,掀起了该领域的一波研究热情。随着这些研究进展,也产生了一些基本问题:(a) 基于GNN的TDL与传统TDL之间有何区别?(b) 在不同TDL场景和任务下构建图结构的正确方式是什么?(c) 基于GNN的表格数据表示学习背后的原理是什么?(d) 哪些TDL任务和应用领域可以从GNNs中受益?(e) 当前研究的局限性和未来研究的潜在机会是什么?尽管最近的GNN4TDL研究报告了令人鼓舞的结果,但这些问题尚未系统地调查,甚至被忽视了。迫切需要进行这项GNN4TDL综述,以揭示这些问题的答案,以进一步促进这一研究方向。我们相信,由于该主题的高需求和低支持,这项GNN4TDL综述将具有很高的价值。(a) 高需求:由于表格数据在许多领域和应用中无处不在,人们逐渐将重点转移到模型数据实例之间的关系及其与特征值的相关性上,我们相信,用于表格数据学习的图神经网络不仅将具有很高的研究影响,而且还将具有实际价值。它应该能够获得学术界和工业界的关注。(b) 低支持:我们的GNN4TDL处于一个小众但至关重要的领域,根据表1中的比较总结,在以前的综述中大多被忽视。与其他集中在跨各种领域和数据类型的广泛GNN应用的工作不同,这篇综述不仅强调了GNN在表格数据预测、表示学习和图结构学习中的潜力,而且还是首次讨论自监着学习、各种训练策略和GNN4TDL中特定的辅助任务。这篇综述论文对应用GNNs进行表格数据学习进行了深入探索。它首先建立了基本的问题陈述,并介绍了用于表示表格数据的各种图类型。综述围绕详细的基于GNN的学习流程进行构建,包括图形化阶段,将表格元素转换为图节点;图构建,专注于建立这些元素之间的连接;表示学习,强调GNNs如何处理这些结构以学习数据实例特征;以及训练计划,讨论辅助任务和训练策略的整合,以提高预测结果。除了回顾GNN4TDL技术之外,综述还进一步阐述了GNN在多个领域的应用,如欺诈检测和精准医疗,以及对当前研究局限性和GNN4TDL领域未来方向的批判性讨论。
我们总结了这项综述的贡献如下。
• 我们提供了图神经网络用于表格数据学习的当前发展的广阔图景。提供了及时和全面的文献综述,帮助读者快速掌握基本概念并进入这个研究领域。
• 我们组织了将GNNs应用于表格数据学习的现有艺术。特别是,我们深入探讨了GNNs如何更好地建模表格数据,并揭示了GNNs带来的表格数据分类和回归性能提升。在实践中,我们强调了构建各种表格数据模型的基本指导原则。
• 我们展示了GNN如何在许多表格数据应用领域中得到利用,如欺诈检测、精准医疗、点击率预测和处理缺失数据。
我们还为学术界和工业界提供了对当前研究局限性和GNN4TDL未来研究方向的深刻讨论。我们按照以下方式组织了这篇论文。第2节定义了剩余部分中使用的相关概念。第3节描述了GNN4TDL的框架,并从多个角度提供了分类。第4节根据我们的分类系统地回顾了现有的GNN4TDL方法。第5节调查了GNN4TDL在各个领域的实际应用。第6节讨论了剩余的挑战和可能的未来方向。第7节最后总结了这项综述。
在这一部分中,我们介绍了用于表格数据学习的图神经网络(GNNs)的总体流程,并详细分类了每个关键阶段,描绘了不同方法如何实现这些阶段。伴随这种分类,我们还提供了每个类别中一些代表性框架的描述。这些研究例子展示了流程中各个阶段或类别之间复杂的相互联系,突出了它们在整体GNN4TDL过程中的紧密结合和协作功能。每个分类的详细阐述在第4节中呈现。流程。基于GNN的表格数据学习的一般流程在图1中提供。流程从图形化阶段开始,即使用表格数据集中的元素定义图的结构。这个阶段涉及决定使用哪些元素作为节点,有三种常见的方法:(1) 将数据实例表示为节点,(2) 将特征作为节点,或 (3) 两者的组合,形成不同类型的图。接下来,图构建阶段旨在在这些元素之间创建连接,将表格数据转换为图结构。这种结构由最初的形式化决定,导致形成同质图(例如,实例图或特征图)或异质图(例如,二部图、多关系图或超图)。接下来,表示学习阶段涉及根据图的性质应用不同类型的GNNs。采用各种同质实例GNNs、同质特征GNNs或异质GNNs来学习数据实例的特征表示。这一阶段至关重要,因为它决定了消息如何在图中传播,模拟特征和实例之间的交互,并影响所学习嵌入的质量。如果使用特征图,则需要额外的信息聚合层,基于学习到的特征嵌入产生最终的实例表示。最后,训练计划阶段接收最终的实例表示。在这个阶段,采用不同的学习任务和训练策略,包括在主任务旁边使用辅助任务。然后通过预测层处理结果,产生最终的预测结果。这个全面的流程突出了GNNs在处理各种图形化和学习任务方面的多功能性,最终导致有效的表格数据学习和预测。分类。根据流程,可以建立用于表格数据学习的图神经网络的分类体系。我们在图2中给出了分类。下面,我们相应地描述了分类体系中的分类,其中每个类别中的一些代表性研究被提到并在表2中总结。
从表格数据中生成图的形式包含三种主要类型:同质图、异质图和超图。基于数据实例作为节点或特征作为节点,在同质图中,我们可以分别形成实例图(例如,[85],[91],[112])和特征图(例如,[83],[152],[173])。另一方面,异质图可以将数据实例与其对应的特征(以及进一步的其他元数据)连接起来。异质图的形成可以是二部图或多部图[27],[63],[142],[157]。可以考虑不同的特征值作为不同的边类型,这些类型描述了数据实例之间的不同关系,从而形成多重/多关系图[51],[60],[89]。如果一个形式允许数据实例和所有可能的特征值出现在一个图中,可以构建异质图来表示复杂的信息相互依赖[22],[37],[93],[118]。至于超图的形成[10],[15],[27],共享相同属性的表格元素被一个边连接。超图中的边可以连接任意数量的表格元素。例如,共享相同特征值的实例可以通过超图中的边连接起来。
给定某种图形式,节点已经确定后,第二阶段旨在通过在节点之间创建边连接来构建图,以实现该形式。根据边创建的标准,一般有四种类型的方法,包括内在结构、基于规则、基于学习和其他方法,其中前两种类型被广泛采用。创建链接的直观方法是利用表格数据元素之间的固有关系,例如,一个实例包含特征值[142],[157],两个实例共享特定特征的相同值[51],[95],一个数据表通过主外键关系与另一个相关联[22],[37]。为了在数据实例和/或特征之间定义边,基于规则的方法依赖于一些手动指定的启发式规则,例如k近邻[44],[59],[112],全连接结构[56],[83],[119],和阈值[21],[29]。基于学习的方法自动在节点之间生成边。它可以分为三个子类别:基于度量的方法使用核函数基于节点相似度计算边权重[69],[123]。神经方法采用深度神经网络进行自适应图构建[85],[91],[152]。直接方法将邻接矩阵视为可学习的[39],[97]。其他方法属于检索式或知识型。基于检索的方法依赖于发现相关和相似的数据实例来基于信息检索技术构建边[27],或进行神经结构搜索以找到更好的表示学习图拓扑[149]。基于知识的方法需要领域专家提供数据实例之间的相关性知识[28]或描述特征之间关系的知识图[114],以便以细粒度方式构建图。
一旦得到描述表格数据的图,无论数据实例及其对应特征如何通过图结构描述,下一阶段是学习每个实例的最终表示。根据获得的图的类型,例如同质或异质图,我们可以使用同质GNN模型(例如GCN [77],GraphSAGE [52],GAT [126],和GIN [151])和异质GNN模型(例如RGCN [115],HGAT [134],和HGT [58])来产生每个实例的嵌入。除了简单地应用现有的GNN模型,一些现有的工作已经开发了专门的GNN来更好地捕获实例和特征之间各种复杂的交互(例如[20],[44],[59],[83],[152])。
基于学习到的实例特征表示设计合适的训练计划是最后一步。训练计划可以从两个方面进行讨论,学习任务和训练策略。虽然主要任务是预测目标标签,但为了增强学习,开发了各种监督变体,因此可以构建不同的辅助任务。例如,利用对比学习来更好地细化图结构学习[85],[91],引入自监着学习和自编码器来产生去噪特征[33],以及施加各种图正则化以稳定图学习并避免过拟合[16],[97]。由于数据本质上是表格形式的,附加学习任务可以保留输入表格数据中的属性,如特征的全局统计[119],领域知识保存[54],和空间信息编码[28]。采用了一系列训练策略来优化GNN4TDL性能。两阶段方法(例如,[91])先学习图结构,然后训练预测模型。对抗技术(例如,[119])增强了特征重构的真实性。其他方法(例如,[14])动态调整特征重构权重以提高任务相关性。双层优化(例如,[142])同时调整GCN参数和图生成。预训练-微调策略(例如,[118])利用自监着学习进行稳健的初始数据理解,然后进行针对性的微调,尽管可能存在阶段不匹配。端到端训练(例如,[51])是最广泛采用的策略,提供了从学习到预测的流线型过程,直接提升了性能。