本文转载自公众号:DI数据智能。
Learning to Complete Knowledge Graphs with Deep Sequential Models
作者:郭凌冰、张清恒、胡伟、孙泽群、瞿裕忠
单位:南京大学
供稿:胡伟
知识图谱通常会使用三元组来记录数以亿计的真实世界事实,这些三元组可写成 (h, r, t) 的形式,其中 h和 t表示实体,r表示 h和 t之间的关系。当前的知识图谱还远未包含所有知识,所以需要知识图谱补全任务。现有工作关注的是一类被称为实体预测(也称链接预测)的任务,其要求根据给定的 (h, r, ?) 或 (?, r, t) 来预测对应的 t或 h,从而补全知识图谱中的三元组。
尽管之前的模型已在实体预测上取得了良好的表现,但它们仍不够实用。假设有一个模型可以基于给定的关系 r而有效地补全一个实体 h。但是如果不提供任何关系,那么这个模型就无法补全 h,因为它无法获知用于完善这个实体的关系。实际上,知识图谱的底层数据模型并不允许任何不完整的元组 (h, r) 存在。
循环神经网络(RNN)是一种神经序列模型,在语言建模、机器翻译等许多自然语言处理任务上取得了优良的效果。知识图谱中的三元组可被近似看作是一个长度为3的简单句子。但是,我们依然面临着以下建模难题:
(1)三元组不是自然语言。它们是用一种固定的表达方式 (h, r, t) 建模的复杂结构。这样短的序列可能不足以为预测提供足够的上下文信息。同时,由于路径数量巨大,构建有价值的长序列又具有很高的成本,难度也大。
(2)在三元组中,关系和实体是以固定顺序出现的两种不同类型的元素。将它们视为同类型元素很可能是不合适的。
为解决上述问题,本文提出了一种适于知识图谱的深度序列模型DSKG (a deep sequential model),其中使用了一种新型结构的 RNN。本文的主要贡献包括:
提出了一种新的知识图谱补全方法,通过扩展多层RNN将知识图谱建模成长度为3的序列。提出了3种不同策略来集成RNN单元,并通过实验展示了它们的不同特点。
设计了两种新的知识图谱补全任务,分别称为关系预测和三元组预测,作为实体预测任务的补充。关系预测仅输入头实体(或尾实体)来预测关系,而三元组预测则仅输入头实体来预测整个三元组。
实验结果显示,在实体预测基准测试集上,本文方法能够取得当前先进的结果。同时,方法也在新的关系预测和三元组预测任务上展现出较高的潜力。
郭凌冰是南京大学计算机科学与技术系的硕士研究生。他于2016年获得河南大学计算机专业的学士学位。他的研究兴趣为知识图谱补全。
张清恒是南京大学计算机科学与技术系的硕士研究生。他于2017年获得河海大学计算机专业的学士学位。他的研究兴趣为知识图谱嵌入。
胡伟是南京大学计算机软件新技术国家重点实验室、计算机科学与技术系的副教授。他分别于2005年和2009年获得东南大学计算机专业的学士学位和博士学位。他的研究兴趣包括知识图谱、数据集成和智能软件。
孙泽群是南京大学计算机科学与技术系的博士研究生。他于2016年获得河海大学计算机专业的学士学位。他的研究兴趣为实体对齐。
瞿裕忠是南京大学计算机软件新技术国家重点实验室、计算机科学与技术系的教授。他分别于1985年和1988年获得复旦大学数学专业的学士学位和硕士学位,于1995年获得南京大学计算机专业的博士学位。他的研究兴趣包括语义网、智能问答和Web软件新技术。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。