论文笔记整理:谭亦鸣,东南大学博士。
来源:WSDM 2020
链接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_25
1.介绍
知识图谱问答(KGQA)系统的目标是:基于自然语言问题,从RDF数据集中抽取对应答案。近年来许多KGQA方法被提出,取得了较好的效果,但是为一个全新的RDF数据集(KG)构建对应的QA系统依然是困难且麻烦的。其中的主要挑战在于可移植性:即是否可能将一个QA算法轻松地用于新的/之前未测试过的数据上。
KGQA 可移植方面的两个主要挑战是:
a. 构建新训练数据的高额成本
b. 现有QA模型依赖于KG-specific工具(例如实体链接)
在这篇工作中,作者提出了一个可移植QA系统,QAnswer KG,该方法可以在新数据集上实现QA系统的按需构建,且在领域问答方面不需用户具备专家知识。在三个不同数据集上的实验证明,QAnswer KG能够在微量训练数据的条件下,实现基于任何RDF数据集上的QA系统。
2.模型/方法
QAnswer主要包含四个步骤:
a. Query Expansion: 对自然语言问题中所有可能的n-gram(从1元文法到长度等于句长的n元文法)做KG资源映射
b. Query Construction: 利用映射得到的KG资源合成所有可能的SPARQL query,作者通过资源在图谱中的距离抽取三元组pattern,每一个query通过将包含相同元素的pattern组合得到,下图列列举了一些利用该方法生成的SPARQL query.
c. Query Ranking: 利用1) 对应KG资源的字符串(来自自然语言问题)长度;2) 资源标签与对应n-gram的相似性。等两个特征,作者构建了一个query排序方法,用于筛选步骤b中的生成得到的query。
d. Answer Decision: 最终,对于排序得到的query,评估其答案是否与问题目标(用户意图)一致。例如,如果给出的query是图2中的4,可以看到。该查询所得的答案是关于 “solarsystem?”,与原始问题“What planets belongs to the solar system”相比,其置信将会很低,并且没有给出有效答案。而query 1则应该具备更高的置信。
本工作与作者的前一工作相关性非常高,感兴趣的同学建议同步阅读:
https://hal.archives-ouvertes.fr/hal-02121400/file/QAnswer__A_prototype_for_a_Question_Answering_System_over_the_Semantic_Web-6.pdf
接着作者介绍了如何使用QAnswer KG对一个RDF数据集构建QA system,图4给出了一个整体的过程示意。
初始化:系统为新QA system预留了空间,并且创建了目录用以加载新数据。
索引:在数据加载后,它将被解析和索引,尤其是query扩展索引以及query构建索引。Query ranking及answer decision部分通过机器学习模型建模。
查询(Query):通过初始化提供的默认算法,QAnswer KG可以回答用户基于当前数据集所提出的问题。
3.实验
数据集:Cocktail:the dataset used as a running example in the previous sections, i.e.,
a dataset containing cocktails with their ingredients and preparation
HR:the dataset contains information about employees of a company. The information includes their skills, the spoken languages, the languages they can program and their images.
EU:dataset containing information on the European Union about their member states, their capitals and ministries
数据集的统计信息以及实验结果如图10所示,
作者提供了该方法的tutorial:https://qanswer.univ-stetienne.fr/docs/doc0.
以及demo:https://www.qanswer.eu/qa
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。