远程监督关系抽取漫谈：结合知识图谱和图神经网络

会员服务 ·

远程监督关系抽取漫谈：结合知识图谱和图神经网络

2022 年 2 月 26 日 PaperWeekly

远程监督关系抽取是一种用知识图谱去对齐朴素文本的标注方法，属于半监督学习算法，自然而然提取特征的时候就会出现很多噪声。比如两个实体之间还有别的关系或者是没有关系，这样的训练数据会对关系抽取器产生影响。现有算法的难点是：

1）在处理多实体对以及它们的关系问题中，不能充分利用多跳推理模式。

2）最近研究考虑基于知识图谱扩展上下文知识，以便改进关系抽取性能。然而，静态地添加知识图谱的所有上下文信息会产生负面影响。如何能够动态地利用来自知识图谱的上下文，以及所选知识图谱上下文是否会对整体性能产生积极的影响？

图神经网络解决了现有模型只能显示提取两实体之间的关系，不能进行关系信息的传递和推理问题。本篇综述集中于利用图嵌入和动态选择知识图谱上下文来解决关系抽取问题。针对这两个主要问题，选取比较经典的三篇文献来和大家交流讨论。

GP-GNNs

论文标题：

Graph Neural Networks with Generated Parameters for Relation Extraction

论文链接：

https://arxiv.org/abs/1902.00756

1.1 论文工作

这是一篇比较经典的远程监督关系抽取论文，由于现存的方法很容易进行关系抽取，却忽略了关系推理过程。论文提出了一种根据自然语言句子生成图神经网络参数的方法，使其能够处理非结构化文本输入的关系推理。

1.2 论文方法

GP-GNN 首先用文本序列中的实体构造一个全连接图，之后使用三个模块来处理关系推理：（1）使边能够对自然语言中的丰富信息进行编码的编码模块；（2）在各个节点之间传播关系信息的传播模块；（3）使用节点表示进行预测的分类模块。编码模块将一系列向量表示作为输入，并输出一个转移矩阵，传播模块利用生成的转移矩阵将隐藏状态从节点传播到其邻居，分类模块根据节点表示提供与任务相关的预测

1.2.1 Encoding Module

通过以下公式，编码模块将序列转换为边相关的转移矩阵，即传播模块的参数：

1.2.2 Propagation Module

传播模块逐层学习节点的表示形式，节点的初始嵌入（即第 0 层的表示）与任务相关，可以是对节点特征进行编码的嵌入，也可以是 one-hot 编码嵌入。

1.2.3 Classification Module

分类模块将节点表示作为输入和输出预测，GP-GNN 的损失公式为：

1.2.4 Relation Extraction with GP-GNNs

给定句子，此句子中的一组关系和一组实体，其中每个由一个或一系列 token 组成，从文本中提取关系是为了识别每个实体之间的成对关系。

Encoding Module

首先将句子中的位置嵌入与单词嵌入连接起来：。

BiLSTM 通过将前向 LSTM 的尾部隐藏状态和后向 LSTM 的头部隐藏状态串联在一起来编码序列，MLP 表示具有非线性激活的多层感知器。

Propagation Module

提取实体和实体之间的关系，它们的初始嵌入记为，，而其他实体的初始嵌入全部设置为零。为头、尾实体的初始嵌入设置特殊值作为一种“flag”消息，并通过传播模块来传递这些消息。，也可以携带有关 subject 和 object 实体的先验知识，实验中设置，。

Classification Module

输出模块采用目标实体对的嵌入作为输入，并运用 softmax 函数来进行分类：

损失函数为：

1.3 实验

论文在人工标注的测试数据集和远程监督标注数据集上进行了实验。本文最佳模型在所有三个测试集上的性能均明显优于所有基模型。这些结果表明 GP-GNN 模型可以使用自然语言生成的参数对完全连接的图成功进行推理。这些结果还表明本模型不仅在句子级关系提取上表现良好，而且在袋级关系提取上也有所改进。

RECON

论文标题：

RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network

论文来源：

WWW 2021

论文链接：

https://dl.acm.org/doi/abs/10.1145/3442381.3449917

2.1 论文工作

论文提出了一种基于知识图谱上下文的图神经网络关系抽取方法（RECON），能自动识别句子中的关系并且对齐到知识图谱（KG）。RECON 使用一个图神经网络来学习句子和存储在 KG 中的事实的表示，提高了提取质量。

2.2 论文方法

RECON 架构如图 1 所示。句子嵌入模块对输入的句子进行静态嵌入检索，实体属性上下文（EAC）模块使用实体属性（如别名、标签、描述和实例）从 KG 中获取句子中的每个实体，并使用相应的上下文表示来丰富实体嵌入。三元组语境学习模块学习给定实体的 2 跳邻域内实体和关系的表示。图神经网络最终被用来聚合实体属性、KG 三元组和句子上下文，并使用一个关系分类层生成最终输出。

2.2.1 Entity Attribute Context (EAC)

EAC 模块使用实体属性（如别名、标签、描述和实例），从 KG 中获取句子中的每个实体，并使用相应的上下文表示来丰富实体嵌入。对于每一个属性中，将单词和字符嵌入连接起来，并将它们通过 BiLSTM 编码器传递。BiLSTM 网络的最终输出被堆叠并送入图2中描述的一维卷积网络（CNN）。

2.2.2 Triple Context Learner

因为每个实体可能在不同的上下文中涉及多个关系，论文的思想是学习在独立的向量空间中三元组的实体和关系嵌入，以捕捉更有表现力的表示。三元组的向量表示分别由初始头实体向量、初始尾实体向量和初始关系向量表示：

每个三元组的相对重要性即可由三元组的向量表示得到：

头实体新的嵌入向量为三元组嵌入的加权和：

对于关系嵌入，将初始关系嵌入矩阵进行线性转换，得到新的关系嵌入向量。对于一个有效的三元组嵌入，必须使下面的式子成立：

与之前的方法所不同的是，论文将实体和关系嵌入在了不同的空间中。因此，需要将实体从实体空间转换到关系空间，论文解决此问题应用了一个非线性转换过程（证明过程见原文）。

因此，上面的满足公式修正为：

定义距离公式为：

因此 loss 函数定义为：

表示有效三元组，表示无效三元组。作者认为在数据集中出现的实际三元组是正的（有效的）三元组，而不在数据集中的其他三元组是无效的。例如，如果在 KG 中，实体 Barack Obama 和 Michelle Obama 有一个有效的关系“配偶”，那么有效的三联体是 <Barack Obama, spouse, Michelle Obama>。无效的三元组将包含这两个实体之间不存在的关系。

2.2.3 Aggregating KG Context

Aggregating KG Context 由编码器模块、传播模块和分类模块组成。编码器将单词向量连接到句子中的位置向量作为输入。

编码器模块将句子中的词语向量和位置向量串联起来，论文在 BiLSTM 中使用连接词嵌入，然后使用全连接网络生成转换矩阵，如下所示:

然后，传播模块根据下式分层学习实体节点的表示：

在分类模块中，将传播模块中每一层学习到的向量串联起来，用于连接关系，并将从三元组内容学习到的内容与其串联送入分类层得到每个关系的概率：

上式是在同一个向量空间的嵌入，对于从不同向量空间的嵌入，论文计算了对应关系向量的相似性，并利用不同空间的实体嵌入，并应用了非线性函数来得到聚合器的最终表示：

作者对于每一个关系取实体对的平移向量，得到距离度量的范数，并将每个关系的这些范数连接起来，得到一个平移向量。

最后将从传播阶段和实体嵌入中学习到的向量连接起来，对目标关系进行分类。

2.3 实验

作者使用两个标准数据集进行实验，分别为 Wikidata dataset 和 NYT Freebase dataset，并且对比了最新的研究方法。作者配置 RECON 模型应用各种上下文输入向量，具体模型主要有：KGGAT-SEP，RECON-EAC，RECON-EAC-KGGAT和 RECON。从实验结果可以看出，模型的每一个部分都对精度提升有不同程度的贡献。

KGPool

论文标题：

KGPool: Dynamic Knowledge Graph Context Selection for Relation Extraction

论文来源：

ACL-IJCNLP 2021

论文链接：

https://arxiv.org/abs/2106.00459

3.1 论文工作

在这篇论文中，KGPool 利用图卷积网络（GCN）中的自注意机制从 KG 中选择一个子图来扩展句子上下文，它使用神经方法学习这些事实的表示（实体别名、实体描述等），补充句子上下文。与静态地使用所有扩展事实的现有方法不同，KGPool 将这种扩展条件设置在句子上。

3.2 论文方法

3.2.1 Graph Construction

图 2 给出了不同实体属性构建图的步骤，通过连接句子的单词和字符嵌入，使用Bi-LSTM 将句子转换为另一种表示形式。

并且为每个实体和实体属性创建类似的表示：

对于关于句子上下文的知识表示，论文引入了特殊的图，表示一个异构信息图，其中表示邻接矩阵，表示节点特征。

3.2.2 Context Pooling

context pooling 建立在图卷积网络（GCN）的三层和与它们相关联的读出层之上。在 HIG 中，实体节点不包含其邻居的信息。因此，论文的目标是利用相邻节点的上下文信息来丰富每个实体节点。采用 GNN 变体，利用其消息传递体系结构，从消息传播函数中学习节点嵌入。

图读出层定义为：

以上主要集中学习节点的特征，下面 KGpool 将使用自注意力机制来学习每个实体属性节点的重要程度。

并且提出了一种基于上下文系数的节点选择方法：

并且过滤掉不太重要的节点属性，形成 Context Graph：

中间表示如下所示：

3.2.3 Context Aggregator

最后，KGPool 将潜在表示（句子上下文）与学习到的结构化表示相结合，以 CG 和句子上下文的形式共同学习丰富的 KG 上下文，得到最终的关系为：

3.3 实验

论文所用数据集与上一篇文章相同是 Wikidata dataset 和 NYT Freebase 数据集，并与最先进的方法做了对比实验。从实验结果可以看出，总的来说，KGPool 为句子上下文稀疏的结构提供了一种有效的知识表示。随着选择系数的不同，对实验结果也有比较重要的影响。

总结

这三篇文献集中于基于知识图谱和图神经网络的远程监督关系抽取。在关系抽取任务中，多跳关系推理是必不可少的。目前，图神经网络是比较有效的方法之一。第一篇文献介绍了利用图神经在无结构化数据上进行关系推理。

考虑到知识库中除了实体关系之外，还有很多其他的信息可以加以利用，因此在第二篇模型中考虑了这部分特征信息，比如关系的别名信息以及实体的类别信息。在第三篇论文中，通过筛选不重要的节点特征信息来提升模型精度。总的来说，远程监督关系抽取需要结合重要的实体特征信息和句子的上下文语境信息才能很好地提升抽取性能。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读