论文作者:申雨鑫,天津大学硕士
发表会议:CIKM 2021
链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421
知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组的表示,不能很好地利用知识图谱中的丰富语义信息。论文提出了一种双曲空间中的数据类型感知的知识图谱表示学习模型DT-GCN,首先,将属性值的数据类型细化为五类,包括整数、浮点、布尔、时间和文本型;然后,对于每种类型,设计不同的编码器用于学习其嵌入;最后,在欧氏空间、球形空间和双曲空间的基础上定义了一个具有连续曲率的统一空间,能够结合三种不同空间的优点。在合成数据集和真实数据集上的大量实验表明,模型的性能始终优于基线模型,证明了融入数据类型信息以及利用双曲空间和统一空间的优势。
DT-GCN的亮点主要包括:
1.首次在知识图谱表示学习中引入了属性值的数据类型这一语义信息;2.首次探索了具有连续曲率的统一空间中的融入数据类型信息的知识图谱表示学习方法;
DT-GCN由两个主要模块组成:通用编码器和专用编码器。前者对节点嵌入进行初始化、构建实体的关系感知表示并得到整数型属性的嵌入结果;后者对浮点型、布尔型、时间型和文本型属性进行编码,并得到相应的嵌入结果。此外,基于欧式、球形和双曲空间构建了一个具有连续曲率的统一空间,并探索了在此空间上的知识图谱表示学习。
DT-GCN的技术细节包括以下四部分:
•Data type refinement:将XML schema中定义的数据类型进行精化。•General encoders:通用编码器部分,包括嵌入层和关系感知层。•Dedicated encoders:专用编码器部分,包括注意力层、GRU层、BiGRU层和FNN层。•The unified space:基于欧式、球形和双曲空间构建的统一空间。
模型整体框架如下:
•数据类型划分
为了避免出现类型的冗余和过高的复杂度,需要对数据类型进行分类,通过把具有相同特征的数据类型合并,能够将这些数据类型细化为五大类,包括整数型、 浮点型、布尔型、时间型以及文本型属性。具体如下:
•通用编码器
在通用编码器中,首先通过嵌入层将节点初始化并非线性转换为更高级别的特征,具体如下:
然后在关系感知层,使用关系和属性值构造实体的关系感知表示,具体如下:
•专用编码器
专用编码器包括注意力、GRU、BiGRU和FNN层,分别用于编码浮点型、布尔型、文本型和时间型属性。并且每一层只处理其对应的属性,忽略其他属性。
首先,作者使用注意力机制(注意力层)来计算浮点型属性的重要性,以提高其表示的准确性。将实体的结构表示及其关系表示合并,学习关系感知的嵌入;通过对关系感知嵌入的双曲变换及双曲激活,学习关系感知嵌入的重要性,得到双曲注意力系数;通过softmax函数将注意力系数归一化,得到双曲注意力值。然后将注意力值与关系感知嵌入进行加权合并得到实体嵌入,具体如下:
然后,作者使用门控循环单元(GRU层)来决定结果中是否应包含布尔属性。更新门用于决定哪些信息需要流入未来,重置门则是控制过去的哪些信息需要被遗忘,利用GRU中的两个门控单元的特点,将第t个布尔型属性值作为第t步的输入状态,并进一步计算出隐藏状态和输出状态。通过这种方式,不仅可以在实体嵌入中融入属性值,还能够建立起属性值之间的联系。通过新的双曲运算符,作者给出了双曲空间中的GRU的定义方式,具体如下:
进一步地,作者定义了一个双向GRU(BiGRU层)来有效处理文本属性。BiGRU层由正向GRU和反向GRU组成,通过合并正、反向GRU的输出,得到实体嵌入,具体如下:
最后,作者应用具有不固定层数的多层前馈神经网络(FNN层)来捕获时间属性。作者定义了一个包含世纪、十年、年、季度、月、周、日、小时、分钟以及秒在内的10级时间层次结构,分别设置了每一层级的最大值,并将FNN的最大层数设置为10,为每一层定义一个权重矩阵。属性所具有的时间层级决定了该属性通过FNN的哪一层,通过这种方式,建立起不同时间层级之间的联系并灵活地学习时间类属性的表示。
•统一空间
基于流形的笛卡尔积,通过使用欧式、球形和双曲空间,作者构造一个具有连续曲率的统一空间,并对各个空间的使用数量作出一定的限制,具体如下:
作者在YAGO-10、FB15k-237、WN18RR和DBpedia-literals等4个数据集上进行实验,数据集的统计信息具体如下:
论文对比了11种基线模型,在知识图谱链接预测和节点分类任务上验证了提出的DT-GCN模型的有效性,结果如下:
论文在统一空间上进行了消融实验,将提出的DT-GCN模型与三种混合空间中的模型SH-GCN*、EH-GCN*和SH-GCN*进行对比,DT-GCN模型仍然取得了最佳性能,结果如下:
论文在数据类型上进行了消融实验,将不能区分数据类型的HGCN模型作为基线,对比了HGCN+integer、HGCN+double、HGCN+Boolean、HGCN+temporal、HGCN+textual以及HGCN*模型,六种能够区分细粒度数据类型的模型均取得了优于HGCN模型的效果,结果如下:
论文研究了维度对性能的影响,在DBpedia-literals数据集上对比了DT-GCN、HGCN*和HGCN模型在维度4、8、16、32、64上的性能,DT-GCN模型性能最佳,结果如下:
论文提出了一种双曲空间中的数据类型感知的知识图谱表示学习模型DT-GCN,以充分利用属性值的数据类型这一语义信息。具体而言,DT-GCN将每个实体投影到一个具有连续曲率的统一空间中,并通过细粒度数据类型进一步增强知识图谱表示学习。实验结果证明,论文提出的DT-GCN模型在具有丰富类型的知识图谱链接预测和结点分类任务上显着优于基线模型。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。