主题: Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study
摘要: 在使用嵌入模型进行知识图谱补全(尤其是用于链接预测的任务)的活跃研究领域中,大多数先前的研究在评估此类模型时使用了两个基准数据集FB15k和WN18。在此类研究中,这些数据集和其他数据集中的大多数三元组属于反向和重复关系,由于语义重复,相关性或数据不完整,这些关系表现出很高的数据冗余性。这是过度数据泄漏的情况-使用需要训练模型的函数进行训练,否则需要将其用于实际预测时才可用。也存在笛卡尔积关系,由适用主题和客体的笛卡尔积形成的每个三元组都是真实的事实。关于上述关系的链接预测很容易,并且可以使用简单规则而不是复杂的嵌入模型以更高的精度来实现。这些模型的一个基本的缺陷是,在给定此类数据的情况下,链接预测方案在现实世界中不存在。本文是第一个系统研究,其主要目的是评估去除不现实的三元组时嵌入模型的真实有效性。我们的实验结果表明,这些模型比我们以前所认为的要精确得多。它们的低精度使链接预测成为一项没有真正有效的自动化解决方案的任务。