Link prediction is a pivotal task in graph mining with wide-ranging applications in social networks, recommendation systems, and knowledge graph completion. However, many leading Graph Neural Network (GNN) models often neglect the valuable semantic information aggregated at the class level. To address this limitation, this paper introduces CGLE (Class-label Graph Link Estimator), a novel framework designed to augment GNN-based link prediction models. CGLE operates by constructing a class-conditioned link probability matrix, where each entry represents the probability of a link forming between two node classes. This matrix is derived from either available ground-truth labels or from pseudo-labels obtained through clustering. The resulting class-based prior is then concatenated with the structural link embedding from a backbone GNN, and the combined representation is processed by a Multi-Layer Perceptron (MLP) for the final prediction. Crucially, CGLE's logic is encapsulated in an efficient preprocessing stage, leaving the computational complexity of the underlying GNN model unaffected. We validate our approach through extensive experiments on a broad suite of benchmark datasets, covering both homophilous and sparse heterophilous graphs. The results show that CGLE yields substantial performance gains over strong baselines such as NCN and NCNC, with improvements in HR@100 of over 10 percentage points on homophilous datasets like Pubmed and DBLP. On sparse heterophilous graphs, CGLE delivers an MRR improvement of over 4% on the Chameleon dataset. Our work underscores the efficacy of integrating global, data-driven semantic priors, presenting a compelling alternative to the pursuit of increasingly complex model architectures. Code to reproduce our findings is available at: https://github.com/data-iitd/cgle-icdm2025.


翻译:链接预测是图挖掘中的一项关键任务,在社交网络、推荐系统和知识图谱补全中具有广泛的应用。然而,许多主流的图神经网络(GNN)模型往往忽略了在类别层面聚合的宝贵语义信息。为解决这一局限,本文提出了CGLE(类标签图链接估计器),这是一种旨在增强基于GNN的链接预测模型的新型框架。CGLE通过构建一个类条件链接概率矩阵来运作,其中每个条目代表两个节点类别之间形成链接的概率。该矩阵可从可用的真实标签或通过聚类获得的伪标签中推导得出。由此得到的基于类别的先验信息随后与来自骨干GNN的结构链接嵌入进行拼接,组合后的表征通过一个多层感知机(MLP)进行处理以完成最终预测。关键的是,CGLE的逻辑被封装在一个高效的预处理阶段,使得底层GNN模型的计算复杂度不受影响。我们通过在广泛的基准数据集上进行大量实验来验证我们的方法,这些数据集涵盖了同配图和稀疏异配图。结果表明,CGLE相较于NCN和NCNC等强基线模型带来了显著的性能提升,在如Pubmed和DBLP等同配数据集上,HR@100指标提高了超过10个百分点。在稀疏异配图上,CGLE在Chameleon数据集上实现了超过4%的MRR提升。我们的工作强调了整合全局、数据驱动的语义先验的有效性,为追求日益复杂的模型架构提供了一个引人注目的替代方案。重现我们研究结果的代码可在以下网址获取:https://github.com/data-iitd/cgle-icdm2025。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2020年11月15日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员