论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统

2020 年 8 月 19 日 开放知识图谱

论文笔记整理:谭亦鸣,东南大学博士。



来源:WSDM 2020

链接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_25


1.介绍

知识图谱问答(KGQA)系统的目标是:基于自然语言问题,从RDF数据集中抽取对应答案。近年来许多KGQA方法被提出,取得了较好的效果,但是为一个全新的RDF数据集(KG)构建对应的QA系统依然是困难且麻烦的。其中的主要挑战在于可移植性:即是否可能将一个QA算法轻松地用于新的/之前未测试过的数据上。


KGQA 可移植方面的两个主要挑战是:

a. 构建新训练数据的高额成本

b. 现有QA模型依赖于KG-specific工具(例如实体链接)


在这篇工作中,作者提出了一个可移植QA系统,QAnswer KG,该方法可以在新数据集上实现QA系统的按需构建,且在领域问答方面不需用户具备专家知识。在三个不同数据集上的实验证明,QAnswer KG能够在微量训练数据的条件下,实现基于任何RDF数据集上的QA系统。


2.模型/方法

       QAnswer主要包含四个步骤:

a. Query Expansion: 对自然语言问题中所有可能的n-gram(从1元文法到长度等于句长的n元文法)做KG资源映射

b. Query Construction: 利用映射得到的KG资源合成所有可能的SPARQL query,作者通过资源在图谱中的距离抽取三元组pattern,每一个query通过将包含相同元素的pattern组合得到,下图列列举了一些利用该方法生成的SPARQL query.

c. Query Ranking: 利用1) 对应KG资源的字符串(来自自然语言问题)长度;2) 资源标签与对应n-gram的相似性。等两个特征,作者构建了一个query排序方法,用于筛选步骤b中的生成得到的query。

d. Answer Decision: 最终,对于排序得到的query,评估其答案是否与问题目标(用户意图)一致。例如,如果给出的query是图2中的4,可以看到。该查询所得的答案是关于 “solarsystem?”,与原始问题“What planets belongs to the solar system”相比,其置信将会很低,并且没有给出有效答案。而query 1则应该具备更高的置信。

      

本工作与作者的前一工作相关性非常高,感兴趣的同学建议同步阅读:


https://hal.archives-ouvertes.fr/hal-02121400/file/QAnswer__A_prototype_for_a_Question_Answering_System_over_the_Semantic_Web-6.pdf


接着作者介绍了如何使用QAnswer KG对一个RDF数据集构建QA system,图4给出了一个整体的过程示意。

初始化:系统为新QA system预留了空间,并且创建了目录用以加载新数据。

索引:在数据加载后,它将被解析和索引,尤其是query扩展索引以及query构建索引。Query ranking及answer decision部分通过机器学习模型建模。

查询(Query):通过初始化提供的默认算法,QAnswer KG可以回答用户基于当前数据集所提出的问题。



3.实验

数据集:Cocktail:the dataset used as a running example in the previous sections, i.e.,

a dataset containing cocktails with their ingredients and preparation

HRthe dataset contains information about employees of a company. The information includes their skills, the spoken languages, the languages they can program and their images.

EUdataset containing information on the European Union about their member states, their capitals and ministries


数据集的统计信息以及实验结果如图10所示,

作者提供了该方法的tutorial:https://qanswer.univ-stetienne.fr/docs/doc0.

以及demo:https://www.qanswer.eu/qa



 


 

OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。



登录查看更多
1

相关内容

资源描述框架(英语:Resource Description Framework,缩写为RDF),是万维网联盟(W3C)提出的一组标记语言的技术规范,以便更为丰富地描述和表达网络资源的内容与结构。
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
26+阅读 · 2020年9月10日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
41+阅读 · 2020年9月7日
专知会员服务
143+阅读 · 2020年8月21日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
专知会员服务
87+阅读 · 2020年1月20日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题
开放知识图谱
27+阅读 · 2018年5月17日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
7+阅读 · 2018年5月6日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
VIP会员
相关资讯
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题
开放知识图谱
25+阅读 · 2018年6月26日
论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题
开放知识图谱
27+阅读 · 2018年5月17日
论文浅尝 | 基于知识图的问答变分推理
开放知识图谱
7+阅读 · 2018年5月6日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
Top
微信扫码咨询专知VIP会员