论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN

2021 年 9 月 5 日 开放知识图谱

笔记整理 | 李爽，天津大学

链接：http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp?tp=&arnumber=9359364

动机

知识图谱 (KG) 嵌入旨在研究嵌入表示以保留 KG 的固有结构。图神经网络(GNN)作为一种有效的图表示技术，在学习图嵌入方面表现出了良好的性能。然而，KG具有异构性的内在属性，其中包含各种类型的实体和关系。如何同时处理复杂的图数据并聚合多种类型的语义信息是一个关键问题。本文提出了一种基于注意力机制的新型异构 GNN 框架HRAN，不仅聚合了来自不同语义方面的实体特征，而且还为它们分配了适当的权重。与几种最先进的方法相比，在三个真实世界上的 KG实验结果证明了其优越的性能。

亮点

HRAN的亮点主要包括：

1.通过关系路径融合每种特定语义的信息，可以分层聚合相邻特征，同时保留不同的特征信息，使GNN可以直接应用于异构KG，并进一步促进后续的链路预测任务；2.利用注意力机制来学习每个关系路径的重要性，并可以根据学习到的注意力值，有选择地聚合信息特征，抑制无用特征。

概念及模型

模型的总体框架如下图所示。

实体级聚合

由于KG的异构性，不同类型的实体可能出现在不同的特征空间中，不适合将每个实体的所有邻居特征直接聚合起来。因此，提出实体级聚合，首先对每个基于关系路径的实体特征进行聚合，聚合方程为：

在本文中，实体级别的聚合器函数 $\Phi_{agg}$ 被称为 GCN。因此，上式可以写为：

关系级聚合

提出一种新的基于关系的注意力机制来获取不同关系路径的重要性，然后利用它来聚合不同类型的语义信息。为了学习每个关系路径的权重值，首先利用非线性变换(如单层MLP)来变换关系特定的特征 $r_r^{(l-1)}$ 。然后通过注意力向量q衡量此特征的重要性，通过激活函数得到最终的 $α_r^{(l-1)}$ 。过程如下所示：

在得到每个关系路径的重要性后，每个基于关系路径的聚合特征可以用学到的 $α_r^{(l-1)}$ 作为系数进行加权。然后，将所有基于关系路径的聚合邻居特征进行拼接融合，得到每个实体最终的聚合邻居特征如下：

三元组预测

给定一个输入三元组 $(e_s,r,e_0)$ ，CNN的输入矩阵M可以通过将主体实体 $e_s$ 和关系r的嵌入拼接得到：

然后用N个不同的滤波器对输入矩阵M进行卷积运算，生成特征映射V 如下：

在预测连接的对象实体 $e_0$ 时，将输出的特征映射平面化并投影到一个包含主体实体 $e_s$ 和关系r之间潜在语义连接的d维向量上，然后可以将ConvD的评分函数 $\phi(e_s,r,e_0)$ 定义为

根据以上三个公式，评分函数可改写为：

最后，定义三元组 $(e_s,r,e_0)$ 的预测概率为

评测和优化

HRAN的损失函数定义为：

在训练过程中使用dropout技术对HRAN进行正则化。每层之后采用Batch normalization来稳定、正则化，提高收敛速度。利用label smoothing减少过拟合，提高泛化能力。采用Adam优化器对损失函数进行优化。

理论分析

实验

作者在WN18、FB15k-237和WN18RR三个基准数据集上进行实验，采用三种通用的评价指标来衡量预测精度，包括mean rank (MR)、mean reciprocal rank (MRR)和Hits@k (k = 1、3、10)。为了验证所提出的方法的性能，从连接预测领域采用了几种最先进的基线方法，包括基于平移距离的方法、基于语义匹配的方法和基于神经网络的方法。

实验一：连接预测的结果

预测结果如下表所示。

FB15k-237数据集训练过程中的Hits@10和MRR如下图所示。

上述结果表明，所提出的HRAN能够对实体和关系生成表达性嵌入，并用于连接预测任务。通过引入关系路径的注意力机制，可以提高方法的有效性。

KGs之间存在着复杂的关系，可以分为1对1、1对多、多对1和多对多。下表总结了MRR关于不同关系类别的结果。

综上所述，本文提出的方法能够有效地处理KGs中的大部分复杂关系，其主要原因是提出了基于卷积动态神经网络(ConvD)的新分数函数。ConvD为每个关系生成关系特定的过滤器，目的是提取具有不同关系的三元组中的关系特定的语义特征。因此，每个实体在不同的关系下会展示出语义特征的不同方面。这使所提出的方法更加灵活，能够处理这些复杂的关系。

实验二：注意力机制的有效性

为了验证注意力机制的能力，以FB15k-237数据集为例，在下图中报告了几种关系路径和相应的注意力值。可见，单一关系路径与其注意力值呈正相关。

在KGs中，节点的度是指每个实体在所有关系路径下的邻居实体。实体的级别越高，表示包含的邻居实体越多。计算Hits@3和Hits@10的均值结果如下表所示。

可以看到，Hits@3和Hits@10的均值随着度的范围增大而增大。这意味着HRAN和HRN可以从更多的邻域信息聚合中获益，从而生成的实体和关系的嵌入更具有表达性。综上所述，该注意力机制能够自适应地学习各关系路径的权重，并有选择地在某些重要关系路径中聚集更多的信息特征。因此，即使在较低的节点度下，生成的实体和关系的嵌入也可以更有表现力。

实验三：不同聚合器和评分函数的比较

本文采用了不同的评分函数，包括基于平移距离的方法(TransE)、基于语义匹配的方法(DistMult)和基于神经网络的方法(ConvE、conv-TransE和所提出的ConvD)。总体结果见下表。

可以看出，由不同聚合器函数组成的GNN体系结构对方法的性能有显著影响。通过融合图结构信息，所提出的方法可以生成更具表达性的嵌入，并用于预测缺失环节。

总结

本文提出了异构关系注意力网络(HRAN)，以获取异构问题中复杂的结构和丰富的语义。HRAN通过关系路径分别聚合邻居特征。同时，通过注意力机制学习各关系路径的重要性，并利用注意力机制选择性地聚合信息特征。对于三元组预测，提出了ConvD，它生成关系特定的滤波器。然后，在卷积运算中，从每个实体中提取关系特定的语义特征。在连接预测任务上的实验结果证明了该方法的有效性。对于未来的工作，由于取样有用的错误训练样本是一个关键任务，可以利用最新的生成对抗网络来探索生成错误的三元组。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。