链接:http://cn.arxiv.org/pdf/1808.09040
如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关系其样本数量通常不是很多。为解决这个问题,本文提出了one-shot场景下的关系学习模型,该模型通过学习实体的embedding和相应的局部图结构来获得一个匹配度量函数,最终推导出新的三元组。
本文提出的模型有以下亮点:
(1)只依赖于实体的embedding和局部图结构(之前的方法依赖于关系的良好表示);
(2)一旦训练完成便可以预测任何关系(之前的方法需要微调来适应新的关系)
本文主要针对(h,r,?)类型的推测,即从候选集合中选出最合适的t来构造新的三元组(h,r,t),主要符号含义如下:
• G{(h,r,t)}:即原始KG,三元组集合
• :对应于G中的一个关系(任务),每个 T_r 中所有三元组的r相同
• :任务集合
• :只含有一个三元组(h_0,r,t_0)
• :C_(h_i,r) 为候选t集合
• G':G的子集,作为背景知识
本文的模型由两部分组成:
(1) Neighbor Encoder
该模块利用局部图结构对(h,t)实体对进行编码,首先对任意h/t构建其one-hop Neighbor set N_e,再利用Encoding function f(N_e)编码,最后将 h 和 t 的编码连接起来便得到(h,t)实体对的表示,f(N_e )形式如下:
(2) Matching processor
对于候选集 C_(h_i,r) 中的每一个 t_(i,j),利用LSTM计算 (h_i,t_(i,j)) 和 (h_0,t_0) 的相似度,相似度最高的 t_(i,j) 即为 (h_i,r) 对应的t,迭代过程如下:
实验
⑴数据集
本文的两个数据集NELL-One和Wiki-One是作者分别基于NELL和Wikidata构建(选取其中三元组数量在50~500之间的关系)。
⑵实验结果
作者将本文提出的模型(GMatching)与之前基于embedding的模型在NELL-One和Wiki-One两个数据集上进行了比较,结果显示该模型各项指标均优于之前的模型。
本文提出的模型利用实体的局部图结构以及学习度量来匹配实体对,一经训练可以直接适用于预测任何关系,并在one-shot场景下表现出优越性能。
论文笔记整理:杨帆,浙江大学硕士,研究方向为知识图谱、自然语言处理。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。