异质图学习：进展和未来

异质图学习有何进展？

图是模拟现实世界实体之间复杂关系的结构化数据。近期，异质性图，即链接节点倾向于具有不同标签或不相似特征的图，吸引了显著关注并发现了许多应用。与此同时，为了推进从异质性图中的学习，也做出了越来越多的努力。虽然存在关于相关主题的综述，但它们主要关注异质性图神经网络（GNNs），这只是异质性图学习的子话题。在这篇综述中，我们全面概述了现有关于从异质性图中学习的工作。首先，我们收集了超过180篇出版物，并介绍了这一领域的发展。然后，我们根据层次化的分类体系系统地分类现有方法，包括学习策略、模型架构和实际应用。最后，我们讨论了现有研究的主要挑战，并突出了未来研究的有前景的途径。更多出版物详情和相应的开源代码可以在我们的仓库中访问，并将持续更新：https://github.com/gongchenghua/Awesome-Survey-Graphs-with-Heterophily。

图形结构化数据在现实世界中无处不在，它将实体建模为节点，将实体之间的复杂关系建模为边。一些图展示了同质性，其中链接的节点倾向于具有相同的标签或相似的特征，例如引用网络、友谊网络和政治网络。如图1a所示，论文之间的引用关系显示了典型的同质性，因为论文更有可能引用同一研究领域内的其他论文。在其他情况下，也存在具有异质性的图，其中具有不同标签或不相似特征的节点更有可能相连，例如城市网络、生物信息学网络和交易网络。异质性在现实世界应用中。具有异质性的图在各种实际应用中找到了应用，这验证了研究主题的重要性。例如，自动账户（也称为社交机器人）[Wu et al., 2023; Ye et al., 2023; Shi et al., 2023]已被广泛用于传播虚假信息、操纵选举和欺骗用户，导致社交网络中的负面后果。在图1b中，我们展示了一个带有机器人的社交网络，其中自动机器人倾向于与用户建立连接，而不是与其他机器人建立连接。由于机器人和普通用户之间在特征和行为上的显著差异，该网络表现出异质性。转移到生物网络，例如基因调控网络[Zhang et al., 2023]，其中转录因子（例如，基因）基于它们的转录调控相互连接。观察到不同转录因子之间的调控通常存在，从而证明了基因调控网络的异质性。此外，在城市计算[Wang et al., 2023]中，城市通常被建模为城市图，其中节点是城市对象（例如，区域），边是物理或社会依赖关系（例如，人类活动）。以基于人类活动构建的城市图为例，城市图通常存在图异质性，因为边的两个端节点可能具有不同的功能性，例如分别是居住区和工作场所。 面对图异质性时的挑战。图神经网络（GNNs）[Kipf and Welling, 2016; Hamilton et al., 2017; Velickovi ˇ c´ et al., 2018]最近取得了巨大成功。标准GNNs隐含地假设图同质性，并遵循消息传递机制，其中每个节点从邻居处聚合消息以更新自己的表示。然而，这些方法不能直接应用于异质性图，因为存在两个约束：聚合约束和局部约束[Zheng et al., 2022]。对于前者，标准GNNs无法有效区分同质性和异质性邻居。尽管可以使用注意力机制[Vaswani et al., 2017]来学习它们的权重，但基于注意力的GNNs，如GAT[Velickovi ˇ c´ et al., 2018]，本质上只执行低通卷积滤波器。对于后者，标准GNNs从局部邻居处聚合节点的信息。为了捕获遥远但有信息量的节点，必须堆叠多个GNN层，这可能导致过平滑问题[Chen et al., 2020]。为了解决这些挑战，近来出现了各种学习策略和模型架构。 与现有综述的不同。由于日益普及，我们目睹了一些最近关于异质性图GNNs的综述[Zheng et al., 2022; Zhu et al., 2023]。然而，这个快速扩展的领域仍然缺乏系统性的回顾。最近的一项综述[Zheng et al., 2022]提出了异质性GNNs的分类法，并回顾了当前的实际基准数据集。在[Zhu et al., 2023]中，作者们总结了为异质性图设计的GNNs，并重新审视异质性是否对GNNs构成挑战的辩论。它们都只关注异质性GNNs，这只是异质性图学习的子话题。在这项综述中，我们更深入地从图学习的角度进行全面分析，包括（半）监督学习和自监着学习。我们还从其他细粒度的学习方面总结了现有工作，如模型鲁棒性学习、大规模图学习和提示学习。此外，我们关注模型架构和现实世界应用的分类法。 最后，我们的贡献可以总结如下： • 综合回顾：据我们所知，我们是第一个提供超出GNNs范围的从异质性图中学习的综合回顾。 • 新分类法：我们引入了一个新的分类法，将现有工作从三个角度分类：学习策略、模型架构和实际应用。 •** 未来方向**：除了对现有方法的全面分析，我们还提出了涵盖异质性图学习各个方面的有洞察力的未来方向。

在这项综述中，我们总结了过去5年在顶级会议或期刊上发表的180多篇高质量论文，包括但不限于ICML、NeurIPS、ICLR、KDD、WWW、TPAMI等。为了跟上前沿，一些最新的OpenReview和ArXiv上的作品也被包括在内。由于页面限制，我们只能在这项综述中呈现部分最具代表性的作品，如果您想访问更全面的材料，可以访问我们的GitHub仓库。图2总结了收集论文的统计数据。从图2a中，我们看到关于异质性图学习的论文数量在最近三年显著增加。同时，图2b给出了在主要会议上发表的收集论文的分布情况。此外，我们在图2c中展示了出现在收集论文标题中的前10个关键词。值得注意的是，这些关键词与我们的重点紧密相关，围绕异质性图学习。 在图3中，我们提供了一个层次化的分类法，将代表性的进展划分为三个主要类别：（1）学习策略，包括（半）监督学习、无监督学习和一些其他代表性的学习范式；（2）模型架构，其中模型的框架是我们的主要关注点；（3）现实世界应用，其中实际应用是说明的基础。