论文浅尝 | 利用问题生成提升知识图谱问答

2019 年 11 月 5 日 开放知识图谱

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。


来源:NLPCC2019

链接:http://tcci.ccf.org.cn/conference/2019/papers/183.pdf

           

    本文提出了一种利用问题生成提升知识图谱问答模型性能的方法(一个框架),动机主要有两个,其一是问答模型训练基于大量有标注问答数据集(人工成本高,且规模有限),其二是当问答模型面对训练过程中没见过的谓词(predicate)时,性能将会受到严重影响。因此作者提出基于现有知识图谱和文本语料,联合问答(QA)和问题生成(QG),将问题生成的结果用于问答模型的微调(fine-tune)中。

           

方法

1.    联合策略

作者提出使用对偶学习(dual-learning)联合QAQG模型,训练的目标符合以下约束,其中 θqg 表示训练得到的 QG 模型,θqa 表示 QA 模型,QG 模型对于给定答案 a 生成的问题 q 需要对应 QA 模型对于问题 q 给出的答案 a

即对于给定的问答对 <q, a>QA QG 模型均需要最小化他们的初始损失函数,规则化后如下:

作者给出了基于对偶学习的fine tuning过程如下图,初始训练数据集被分别用于QAQG模型,而后QG模型将文本语料和其内容对应知识库的三元组(triple)作为输入生成<q, a>对,用于QA模型的fine tune


2.    问答模型

为了实验方便,本文的简化问答模型为一个关系分类模型(relation classification model),作者表示在现有高质量 Entity Linking的 基础上,实际影响问答性能的主要因素依赖于关系/谓词的识别精度。

作者构建了一个简单的RNN关系抽取模型,为了更好的支持模型对未识别谓词的处理能力,关系名被分解为词序列,因此关系抽取实质上是一种序列匹配+排序的过程。

问题的表示也使用了相同的RNN完成,且为得到更 general 的表示形式,问题中的实体均用<e>标记替换,得到类似于“where is <e> from”这样的形式,同时对于<e>的类型添加了约束,以避免模型训练中可能存在的样本冲突。

 

3.    问题生成模型

       作者基于 Seq2Seq 翻译模型(基于 GRU)设计并构建了本文的 QG 过程,该模型包含图谱和文本两个编码器:

图谱编码将给定的事实三元组中的头实体,谓词,尾实体分别进行编码,而后融合三者的编码结果,作为解码输入;

另一方面,对应事实三元组的文本信息也从Wiki中抽取获得,利用文本编码器编码,也作为解码过程的输入,从而实现基于知识库的自然语言问题生成。

 

实验

数据集

       本文实验使用的数据集包含以下两个:

       SimpleQuestion:一个包含超过 10 万标注数据的问题集,每个问题由一个实体和一个关系组成,这里作者使用到了它的子集 FB2M,包含 2M 的实体。

       WebQSP:一个中等规模的知识图谱问答数据集,包含单三元组和多三元组问题,作者使用 S-MART 实现实体链接。

 

实验结果

为了验证模型对未知谓词的处理能力,作者分别取5%~100%训练集对模型进行评估,结果如表1所示,指标反映的都是关系检测的准确性。

 

问题生成的结果如下表所示:

该评估包含BLEU-4自动评价和人工评价。

 

问答实验的结果如下:

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
20

相关内容

【斯坦福CS520】向量空间中嵌入的知识图谱推理,48页ppt
专知会员服务
101+阅读 · 2020年6月11日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
论文浅尝 | 面向自动问题生成的跨语言训练
开放知识图谱
8+阅读 · 2019年9月6日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
Arxiv
14+阅读 · 2019年11月26日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
相关资讯
论文浅尝 | 面向自动问题生成的跨语言训练
开放知识图谱
8+阅读 · 2019年9月6日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
相关论文
Arxiv
14+阅读 · 2019年11月26日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
10+阅读 · 2018年4月19日
Top
微信扫码咨询专知VIP会员