ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答

会员服务 ·

ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答

2020 年 6 月 29 日 AI科技评论

作者：舒意恒（南京大学硕士生，知识图谱方向）

编辑 | 丛末

背景

什么是知识图谱问答？

知识图谱（KG）是一个多关系图，其中包含数以百万计的实体，以及连接实体的关系。知识图谱问答（Question Answering over Knowledge Graph, KGQA）是利用知识图谱信息的一项研究领域。给定一个自然语言问题和一个知识图谱，通过分析问题和 KG 中包含的信息，KGQA 系统尝试给出正确的答案。

多跳知识图谱问答指的是，该问答系统需要通过知识图谱上的多条边执行推理，以获得正确答案。

一般而言，针对一个简单的事实类问题，KGQA 尝试找到一个三元组来回答这一问题。具体而言，KGQA 需要分析自然语言问题，将自然语言问题中的实体描述和关系描述分别链接到知识图谱中的实体和关系。如果知识图谱中存在三元组，则是潜在的答案。这一过程可以称作单跳问答，一个问题的查询通过找到独立的三元组完成，而没有涉及多个有关联的三元组。

多跳知识图谱问答面临的挑战

知识图谱作为一种知识存储的形式，其中最重要的缺陷之一是它们通常都是不完整的，而这给 KGQA 提出了额外的挑战，尤其是多跳 KGQA。如上图所示，多跳 QA 需要一个长路径，而该路径上任意三元组的缺失都将导致真正的答案无法被搜索到。因此，采取某种方式预测知识图谱中缺失的链接，对于提升多跳 QA 的表现是有帮助的。当前缓解知识图谱不完整性的方法主要有：将 KG 与外部文本语料库结合，或者对知识图谱内的三元组进行补全等。

链接预测

链接预测的任务即预测知识图谱中缺失的链接，以减缓知识图谱的稀疏性。知识图谱嵌入是一种常见的链接预测方法，它为知识图谱中的实体和关系学习高维向量表示，但作者发现它尚未应用于多跳 KGQA 中。作者首次将嵌入用于多跳 KGQA，其目的在于充分利用嵌入方法在应对知识图谱稀疏性上的良好表现，增强模型的多跳推理能力。

论文题目：Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

论文链接：https://arxiv.org/abs/1910.03262v1

技术简介

如下图所示，该文将其 KGQA 方法称为 EmbedKGQA。其中包含三个关键模块。

KG 嵌入模块：为 KG 中所有实体构建嵌入。
问题嵌入模块：为问题找到嵌入。
答案选择模块：减小候选答案实体的集合，并选择最终的答案。

KG 嵌入模块

作者直接选择了 ComplEx ^[1] 作为嵌入模型。实体嵌入被用于学习头实体、问题和答案实体构成的三元组评分函数。作者没有在 KG 嵌入模块进行过多关注和额外设计。

问题嵌入模块

该模块的目标是将一个自然语言问题嵌入到一个固定维度的复向量。使用复向量的原因是匹配 KG 嵌入的 ComplEx 方法。作者使用了现有方法 RoBERTa ^[2] 将自然语言问题嵌入到 768 维的向量中，其中包含 4 个全连接线性层，使用 ReLU 激活函数。

给定一个自然语言问题，一个查询实体，和一个答案实体集合，该模块学习问题嵌入以达到以下目标：

其中，是 ComplEx 的评分函数，是之前学习到的实体嵌入。对于每个问题，评分函数通过所有候选答案实体计算得到。但哪些实体可以被认为是候选答案实体，作者在此处并没有明确阐述，而是在答案选择模块中讲解了如何对候选答案实体进行修剪操作。

读到这里，不禁疑惑该文对多跳问题的处理有什么特别之处？和单跳问题的处理是否有不同？我们发现问题嵌入和 KG 嵌入并没有特殊的设计，而实际上多跳 QA 的能力就来源于嵌入方法本身的性质。作者在实验部分对此进行了解释。

答案选择模块

在进行推断时，模型根据 (head, question) 头实体-问题对，对所有可能的答案计算分数。对于较小的知识图谱，例如后文实验部分所述的 MetaQA，该模块直接选择具有最高分数的实体作为答案，即从整个知识图谱的所有实体中选择最高分数的实体。此处实际上已经通过嵌入的方式，完全避免了任何形式的检查某个结点的邻居结点的过程，或者说克服了生成某种局部子图的方法的弊端，实现了多跳。