笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。
知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的问题,所以需要进行链接预测(Link Prediction)和知识图谱补全(Knowledge Graph Completion)。知识图谱嵌入(Knowledge Graph Embedding)方法被提出来解决该问题。知识图谱嵌入是将知识图谱中所有的实体和关系嵌入到低维空间的方法,从基于距离的方法TransE到目前的效果最好的RotatE,在知识图谱补全任务上效果持续提升。
在知识图谱嵌入中,有两个主要问题受到广泛关注:
1.如何解决1对N,N对1和N对N的复杂关系表示问题。比如1对N的关系:基于距离的方法中,三元组(StevenSpielberg, DirectorOf, ?)的补全要求在经过关系变换DirectorOf后,Jaws和JurassicPark等实体能够距离StevenSpielberg更接近,但是使所有这类实体具有不同的表示是很困难的。2.如何通过已有的三元组学习和推断关系模式。关系模式例如对称(Symmetry)关系IsSimilarT,非对称(Antisymmetry)关系FatherOf,逆向(Inverse)关系PeopleBornHere和PlaceOfBirth以及组合(Composition)关系mother’s father is grandpa等等。
之前的TransH、TransD和TransR等方法致力于解决复杂关系表示问题,却只能编码对称/非对称关系,最新的RotatE在编码对称/非对称关系,逆向关系和组合关系上取得了优异的效果,但是复杂关系的预测依然具有挑战性。由此,论文提出了一种新的知识图谱嵌入方法PairRE,它能够同时编码复杂的关系和多种关系模式。
模型中使用的两个用于关系表示的向量将头尾实体分别投影到欧式空间,再最小化投影向量的距离。其形式化描述如下:
PairRE和前面提到的几种方法的比较如下,可以看出相比于RotatE,论文提出的PairRE方法在复杂关系表示上表现更优,同时在关系模式的编码上能够编码子(Sub)关系。
直观来说,PairRE中所有的实体表示都在一个超球上。
相比于其他方法,PairRE允许一个实体在不同的关系中有分布式表示,并且成对的关系向量能够对损失函数中的边际进行自适应调整,从而缓解复杂关系的表示问题。例如在1对N的关系补全(h, r, ?)中,由正确的尾实体集合S = {t_1,t_2,…,t_N},论文基于固定边际参数γ的设计了t_i的取值范围:
在TransE和RotatE中也有类似的固定边际参数来控制复杂关系表示,当|S|足够大时,PairRE能够通过减小|r^T|来拟合t_i,而前两种方法效果不佳。
对于各种关系模式,证明PairRE编码的形式化描述如下:
对称/非对称关系模式
逆向关系模式
组合关系模式
对于子关系编码,PairRE满足了以下条件:
子关系模式
PairRE的模型优化中使用了自对抗(Self-adversarial)的负采样损失函数:
其中,γ是固定边界参数,σ是sigmoid函数,(h_i^',r,t_i^')是第i个负样本,补充定义如下
实验中用于做链接预测任务的数据集信息如下图
PairRE和其他方法的结果比较如下
上图是本文的主实验结果,可以看到Pair相比于RotatE在各个设定下都取得了更好的效果,如果嵌入向量的维度能够升高到500,效果可能会进一步提升。
文中提到,由于PairRE和RotatE共享超参数和实现方法,所以客观来说与RotatE比较更公平。
论文还针对子关系模式做了补充实验,将PairRE同ComplEx-NNE-AER和SimplE^+进行对比,这两种方法通过设计子关系规则进行语义匹配。论文同时借鉴了ComplEx-NNE-AER中的规则,对本来的损失函数进行改变如下:
对数据集Sports添加以下规则并获得结果
将子关系模式中的两个关系看作同等之后,在数据集DB100k上获得的结果如下
对于复杂关系的表示问题,论文对关系的种类进行分别实验,结果表明PairE在N对1和N对N的关系表示在数据集FB15k和ogbl-wikikg2上表现明显超过了其他模型,但是在1对1和1对N的关系表示上结果不佳。论文为了证明成对的关系向量有优越性,单独将成对关系向量机制加在RotatE上,在ogbl-wikikg2数据集上取得了良好的效果。
对于关系模式问题,论文在嵌入向量维度为500下取DB100k中的对称关系r_1:spouse和非对称关系r_2:tv_station/owner,对称关系编码满足r^(H^2 )=r^(T^2 ),编码效果如下:
验证逆向关系r_2和r_3: tv_station_owner/tv_stations,编码满足r_3^H∘r_2^H=r_3^T∘r_2^T,编码效果如下:
验证组合关系r_4: /location/administrative_division/capital/location/administrative_division_capital_relationship/capital,r_5: /location/hud_county_place/place和r_6: base/areas/schema/administrative_area/capital.,编码满足r_4^H∘r_5^H∘r_6^T-r_4^H∘r_5^T∘r_6^H,效果如下:
论文提出的PairRE方法用成对的向量表示每个关系,使损失函数中的余量能够自适应调整,以适应不同的复杂关系,在复杂度略有增加的情况下有效地解决了知识图谱嵌入中的问题。除了对称/不对称、逆向和组合关系之外,PairRE还可以通过对关系表示的简单约束编码子关系。在大规模数据集ogbl-wikikg2上,PairRE取得了最优效果。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。