**论文题目:**Start from Zero: Triple Set Prediction for Automatic Knowledge Graph Completion **本文作者:**张文(浙江大学)、徐雅静(浙江大学)、叶鹏(移动)、黄志伟(浙江大学)、许泽众(浙江大学)、陈矫彦(曼彻斯特大学)、Jeff Z. Pan(爱丁堡大学)、陈华钧(浙江大学) **发表期刊:**TKDE 2024 论文链接:bit.ly/3QOLOu5
代码链接:bit.ly/4al9v3W 欢迎转载,转载请注明出处
一、引言
知识图谱补全(KGC)旨在预测知识图谱中缺失的三元组。一些任务,如链接预测和实例补全,已经被提出用于知识图谱补全。但它们都是三元组级别的任务,任务定义为给定三元组中的其中一些元素并预测缺失的元素。然而,事先知道被补全三元组的中的元素并不总是一个现实的设定。在本文中,我们提出了一种新的图级别自动知识图谱补全任务,称为三元组集合预测(Triple Set Prediction,TSP),它假设缺失三元组中的所有元素都是未知的。TSP的目标是基于已知的三元组集合,预测缺失的三元组集合。为这个新任务我们提出了4个评估指标,包括3个分类指标和1个排名指标,充分考虑了部分开放世界假设和封闭世界假设。此外,为了应对候选三元组数量巨大的挑战,我们提出了一种新颖而高效的基于子图分割和头尾实体建模的三元组集合预测方法GPHT,它可以快速预测三元组集。为了公平比较TSP的结果,我们还提出了两种类型基线方法RuleTensor-TSP和KGE-TSP,将现有的基于规则和嵌入的知识图谱补全方法应用于TSP任务。我们构建了3个不同特性的数据集,并进行实验验证。结果表明,这些方法可以成功生成一组缺失的三元组,并在新任务上取得合理的得分,而我们提出的GPHT方法的性能和效率均优于基线方法。
二、三元组集合预测任务
如上图所示,与已有的链接预测和实例补全任务不同,三元组集合预测任务假设被预测三元组的头实体、关系、和尾实体均为未知的,任务定义为:给定一个知识图谱中已知的三元组集合,预测该知识图谱中缺失的三元组集合。
已有的知识图谱多基于开放世界假设或封闭世界假设(如下图所示),由于在开放世界假设下,未知的且不在测试集里的三元组真值无法评估,因此我们提出了基于关系相似性的部分开放世界假设。
基于封闭世界假设和基于关系相似性的开放世界假设下,我们提出了4种三元组集合预测评估指标,其中包括3种分类指标,即联合精确度(Joint Precision, ),开方测试集召回率(Squared Test Recall, ),和TSP值()。有的三元组集合预测模型可能会预测三元组的真值,这个值的大小排序并未被分类指标考虑,因此我们还提出了一个排序评测指标。
三、方法
理论上,由已知实体和关系构成的不在知识图谱中三元组,都是候选的缺失三元组,个数为实体个数实体个数关系个数-已知三元组个数,因此三元组集合预测方法最大的挑战是缺失三元组的候选集很大。为了应对这个挑战,我们提出了一个基于图分割和头尾实体建模的方法GPHT,流程如下图所示:
GPHT中包括3个核心步骤:
图分割:参考基于节点的图分割方法,将给定的知识图谱均匀分割为多个尽可能少相交的子图。我们将每个子图中的实体对当作是缺失的三元组可能的头实体和尾实体。
头尾实体建模:从每个子图中识别可能缺失关系的头实体和尾实体组合,我们将每个子图看作一个样本,将其分为支持集和查询集,用一个关系图神经网络得到支持集中实体和关系的表示,然后用一个基于注意力机制的模型得到查询集中的头实体和尾实体是否缺失三元组的得分。这样对每个子图,我们将输出一些较高概率缺失三元组的头实体和尾实体对。
关系建模:针对预测的头实体和尾实体对,将所有关系当作候选,生成多个候选三元组,通过知识图谱嵌入方法对每个三元组进行打分。最后按设定的阈值,取出得分大于阈值的三元组放入预测的三元组集合中。
四、实验
为了验证三元组集合预测任务的可行性和效果,我们从Wikidata中抽取了2个大小不一的数据集(Wiki79k和Wiki143k),进行了基于关系相似性的部分开放世界假设的实验,还构建了一个相对完整的亲属关系知识图谱数据集CFamily,进行了基于封闭世界假设的实验。为了进行实验对比,我们提出了两种基线方法,RuleTensor-TSP和KGE-TSP,将已有的基于规则的和基于嵌入的知识图谱补全方法应用于三元组集合预测任务。Wiki数据集上的实验效果如下:
从实验表格中我们可以看出,TSP任务的数值在一个合理的区间,说明了这个新任务的可行性。GPHT方法总体比基线方法效果好。 为了验证GPHT方法每一步的有效性,下图展示了经过每个步骤后所剩的候选三元组个数: 从图中我们可以看出,GPHT的3个核心步骤都有效地减少了候选三元组个数,并最终有效地从大量的候选三元组中筛选出了可能的缺失三元组。