在图数据挖掘任务中,对于特定任务,有标签的数据通常十分稀少,然而现实中存在着大量无标签的数据。
因此,如何通过预训练从这些标签数据中获取有用的先验知识,从而提升下游任务的表现成为了一个有价值的问题。我们本篇工作提出了一种在大规模异质图上进行高效预训练的框架。
近年来,图神经网络作为图结构数据学习的重要方法,可以通过递归的从邻居聚合消息(特征和节点表示)来学习到有效的图表示。但是图神经网络通常需要大量的有标签数据来取得令人满意的表现。为了解决标签稀疏的问题,一些工作提出了基于自监督的方法来从无标签的数据中提取先验知识。然而,现有的预训练框架都是基于同质图的,但现实生活中的交互系统通常都是有多种类型节点和边的大规模的异质图。因此,在我们设计预训练模型的时候遇到了如下两个挑战。
如何捕捉异质图的语义和结构性质 相比同质图,异质图具有更丰富的语义和结构信息。不同类型的节点通常有不同的图结构性质(例如会议节点的度要普遍高于其他类型的节点)。不同类型的连边通常有不同的语义关系。因此为了有效的预训练,我们需要捕捉这些信息。
如何在大规模异质图上高效预训练一个 GNN
现实生活中的异质图可以拥有数十亿的节点和边。为了可以在这样这样大规模的图上进行预训练,我们需要设计一种加速策略来保证我们在大规模异质图上的预训练效率。
为了解决上述的两个问题,我们提出了 PTHGNN 来进行大规模异质图上的预训练。对于第一个挑战,基于对比学习,我们提出了节点级别和网络模式级别的预训练任务来捕捉异质图的语义和结构信息。对于第二个挑战,我们提出了基于 personalized pagerank 的边稀疏化方法,从而来提高我们进行大规模预训练的效率。