在图数据挖掘任务中,对于特定任务,有标签的数据通常十分稀少,然而现实中存在着大量无标签的数据。

因此,如何通过预训练从这些标签数据中获取有用的先验知识,从而提升下游任务的表现成为了一个有价值的问题。我们本篇工作提出了一种在大规模异质图上进行高效预训练的框架。

近年来,图神经网络作为图结构数据学习的重要方法,可以通过递归的从邻居聚合消息(特征和节点表示)来学习到有效的图表示。但是图神经网络通常需要大量的有标签数据来取得令人满意的表现。为了解决标签稀疏的问题,一些工作提出了基于自监督的方法来从无标签的数据中提取先验知识。然而,现有的预训练框架都是基于同质图的,但现实生活中的交互系统通常都是有多种类型节点和边的大规模的异质图。因此,在我们设计预训练模型的时候遇到了如下两个挑战。

如何捕捉异质图的语义和结构性质 相比同质图,异质图具有更丰富的语义和结构信息。不同类型的节点通常有不同的图结构性质(例如会议节点的度要普遍高于其他类型的节点)。不同类型的连边通常有不同的语义关系。因此为了有效的预训练,我们需要捕捉这些信息。

如何在大规模异质图上高效预训练一个 GNN

现实生活中的异质图可以拥有数十亿的节点和边。为了可以在这样这样大规模的图上进行预训练,我们需要设计一种加速策略来保证我们在大规模异质图上的预训练效率。

为了解决上述的两个问题,我们提出了 PTHGNN 来进行大规模异质图上的预训练。对于第一个挑战,基于对比学习,我们提出了节点级别和网络模式级别的预训练任务来捕捉异质图的语义和结构信息。对于第二个挑战,我们提出了基于 personalized pagerank 的边稀疏化方法,从而来提高我们进行大规模预训练的效率。

成为VIP会员查看完整内容
45

相关内容

专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
37+阅读 · 2021年5月28日
【WWW2021】 大规模组合K推荐
专知会员服务
43+阅读 · 2021年5月3日
【WWW2021】自监督学习上下文嵌入的异构网络链接预测
专知会员服务
39+阅读 · 2021年2月10日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
HAN:基于双层注意力机制的异质图深度神经网络
黑龙江大学自然语言处理实验室
20+阅读 · 2019年5月7日
Arxiv
9+阅读 · 2021年6月16日
Interest-aware Message-Passing GCN for Recommendation
Arxiv
12+阅读 · 2021年2月19日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
29+阅读 · 2018年4月6日
Arxiv
5+阅读 · 2017年11月13日
VIP会员
相关VIP内容
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
37+阅读 · 2021年5月28日
【WWW2021】 大规模组合K推荐
专知会员服务
43+阅读 · 2021年5月3日
【WWW2021】自监督学习上下文嵌入的异构网络链接预测
专知会员服务
39+阅读 · 2021年2月10日
【AAAI2021】预训练用户表示提升推荐
专知会员服务
43+阅读 · 2021年2月8日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
微信扫码咨询专知VIP会员