论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

2020 年 8 月 14 日 开放知识图谱


论文笔记整理:吴畏,东南大学硕士研究生。


来源: ACL 2020

论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf

开源代码: https://github.com/malllabiisc/EmbedKGQA


动机

在多跳KGQA中,系统需要对KG的多个边缘执行推理以推断出正确的答案。 KG通常不完整,这给KGQA系统带来了额外的挑战,尤其是在多跳KGQA的情况下。最近的方法已使用外部文本语料库来处理KG稀疏性。而本文期望通过利用KG embedding的链接预测属性,不依赖外部数据解决KG不完整问题。


贡献

1.提出了EmbedKGQA,一种用于多跳KGQA任务的新方法。EmbedKGQA是第一个将KG嵌入用于此任务的方法。EmbedKGQA在执行稀疏KG上的多跳KGQA方面特别有效。

2. EmbedKGQA放宽了从预先指定的本地邻居选择答案的要求,这是先前方法中不受欢迎的一个约束。

3.通过在多个现实世界数据集上进行的广泛实验,证明了EmbedKGQA取得了STOA的效果。


方法

本工作首先学习KG的表示。然后给定一个问题,学习问题的Embedding, 最后,它将这些embedding结合起来以预测答案。

在以下各节中,我们介绍EmbedKGQA模型,它包含3个模块:

1) KG Embedding模块: 为KG中的所有实体创建Embedding

2) 问题Embedding模块: 得到问题的Embedding

3) 答案选择模块: 减少候选答案实体的集合并选择最终的答案



1. KG Embedding模块

为所以的实体和关系训练ComplEx Embedding,根据QA训练集中KG实体的覆盖范围,此处学习的实体Embedding将保持frozen状态或可以在后续步骤中进行fine-tune。


2. 问题Embedding模块

该模块使用RoBERTa将自然语言问题q嵌入到768维向量。

给定一个问题q,主题实体h∈E和答案实体AE的集合,它以以下方式学习问题嵌入:

  公式1


其中φ是ComplEx 的scoring function是先前学习的实体Embedding。

对于每个问题,将使用所有候选答案实体计算分数φ(.)。通过最小化分数sigmoid与目标标签之间的二进制交叉熵loss来学习模型,其中正确答案标签为1,否则为0。

当实体总数很大时,将进行标签平滑。


3. 答案选择模块

如公式2所示:

       公式2


在推断阶段,本模型针对所有可能的答案上进行(head,question)对的评分。对于相对较小的KG(例如MetaQA),我们只需选择得分最高的实体。如果KG很大,则修剪候选实体可以显着改善EmbedKGQA的性能。

如何修剪候选实体的具体方法就是关系匹配。学习得分函数S(r,q),对给定问题q的每个关系r∈R进行排名,如公式3所示:

                     公式3


其中是问题和关系的embedding,在所有关系中,选择得分大于0.5的那些关系。将其表示为集合。对于到目前为止我们已经获得的每个候选实体,我们在头实体h和之间的最短路径中找到关系。将每个候选答案实体的关系得分定义为它们的交集大小(公式4)。


                     公式4


最终模型使用关系得分和ComplEx得分的线性组合来找到答案实体(公式5)。

       公式5


实验

本工作在两个数据集上面进行了实验,一个是电影领域中包含超过40万个问题的大规模多跳KGQA数据集MetaQA, 另一个是基于Freebase的多条问答数据集WebQuestionsSP。

下面两个表展示了本工作在这两个数据集上的效果,完整的KG是测试QA模型最简单的设置,因为创建数据集的方式是答案始终存在于KG中,并且路径中没有丢失的链接。但是,这不是一个现实的设置,因此QA模型应该也可以在不完整的KG上工作。因此,本工作通过随机删除KB中的三元组的一半来模拟不完整的KB,表中KG-50表示删除了一半三元组后的KG。


1.MetaQA

如表1所示,EmbedKGQA在多跳情况下以及在缺失KG的情况下可以超过STOA。

表1 . MetaQA上多条问答的hits@1结果


2.WebQuestionsSP

WebQuestionsSP使用了更少的训练样本和更大的KG,这使得多跳KGQA要困难得多。如表2所示,在50%KG的情况下,WebQSP可以超过STOA,包括使用了额外的文本信息的PullNet。这可以归因于这样的事实,即通过KG Embedding隐式捕获了相关且必要的信息。

表2. WebQuestionsSP上多条问答的hits@1结果


总结

本工作通过在KG Embedding的链接预测属性来缓解KG不完整性问题,可以在KG缺失的情况下很好的完成多跳的问答而无需使用任何其他数据。它训练KG实体embedding并使用它来学习问题embedding,并在评估过程中,对所有实体(head实体,问题)再次进行评分,并选择得分最高的实体作为答案。最终在MetaQA和WebQuestionsSP数据集上获得了优秀的表现,特别是的在KG缺失的时候可以非常好的回答问题。


 


 

OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。



登录查看更多
4

相关内容

【斯坦福CS520】向量空间中嵌入的知识图谱推理,48页ppt
专知会员服务
102+阅读 · 2020年6月11日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
134+阅读 · 2020年2月13日
论文浅尝 | 可建模语义分层的知识图谱补全方法
开放知识图谱
30+阅读 · 2020年3月8日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
论文浅尝 | 用可微的逻辑规则学习完成知识库推理
开放知识图谱
14+阅读 · 2018年7月5日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
19+阅读 · 2018年1月30日
Arxiv
9+阅读 · 2019年11月6日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
论文浅尝 | 可建模语义分层的知识图谱补全方法
开放知识图谱
30+阅读 · 2020年3月8日
论文浅尝 | 利用 KG Embedding 进行问题回答
开放知识图谱
22+阅读 · 2019年7月7日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
论文浅尝 | 用可微的逻辑规则学习完成知识库推理
开放知识图谱
14+阅读 · 2018年7月5日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
19+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员