KBQA从入门到放弃 - Part 2 | 每周话题精选 #09

会员服务 ·

KBQA从入门到放弃 - Part 2 | 每周话题精选 #09

2017 年 8 月 16 日 PaperWeekly 知识图谱子群

「每周话题精选」是根据 PaperWeekly 最近一周的专题交流群讨论沉淀下来的精华内容。目前已成立的专题交流群有：知识图谱，量化，GAN，医疗AI，CV和NVIDIA。

这是第 9 期「每周话题精选」

本期问题清单

KBQA结合深度学习的基本思路是什么？代表方法有哪些？
深度学习方法与传统方法之间的比较：知识表示，答案问句匹配，优缺点
目前的方法存在哪些挑战？（诸如：复杂问句处理；数据集构造；知识库推理等）
针对以上各问题分别有哪些新的研究进展？
关于KBQA，国内外有哪些研究团队、学者？
有哪些值得读的论文和开源项目（侧重创新性和前瞻性）

话题讨论精选

➊

KBQA结合深度学习的基本思路是什么？代表方法有哪些？

先匹配实体，再匹配关系，由于关系匹配比较复杂，所以深度学习方法一般都集中解决关系匹配问题了。这里的匹配关系具体是指：KB 单独做向量与 DL 网络中的 Embedding 拼接。目前将 KB 作为结构化信息，引入网络中进行学习是个方向。

Q：如何构造嵌套这种先验信息的结构？

直接 word embedding + KB 的 embedding，可以理解为更长的 embedding，上下文信息更充分。识别实体，然后再在 KB 中对该实体的结点的子图结构信息嵌套进网络。

Q：是否会综合考虑多对实体信息？关系怎么匹配？

感觉目前很少，大多是解决最简单的事实类问句。关系匹配首先要找出关系，进而进行匹配。

Q：关系抽取中联合（joint）和串联（pipeline）方式的区别是什么呢？

联合抽取，一般指的是同时进行实体与关系抽取，简单的理解是参数的共同优化。原来的 pipeline 方法是先抽取实体，再抽取关系，训练过程是完全独立开的两部分。联合抽取，相对应于 pipeline 方式，目的是解决实体抽取部分错误可能会传播给关系抽取部分的问题。

Q：联合抽取（joint）是不是端到端直接得到实体和关系？

是的，pipeline 就是两部分独立的，但其实还是有先有后的，只是同时扔到网络一起学习，实现参数的共同优化。

Q：目前的代表方法都有哪些？

我了解目前大多是集中在对问句关系与 KB 中的属性和结构的的特征学习，还有基于依存句法特征和 CNN 进行自动模板生成的。比如 KB 中的路径特征的表示可以是，从问题中的主题词到答案在知识库中形成一条路径，记录该路径上的每一个实体关系，最后把整个路径的实体和关系，进行某种生成。

三元组的结构学习，现在有加入文本信息的，文本信息是指实体的描述文本，可以帮助建模实体。

Q：传统的方法在这上面有何局限性？

pipeline 问题是如果实体抽取阶段质量不高，错误可能会传播到关系抽取阶段，对最终结果抽取有巨大的影响。微软在 15 年的一片文章 Semantic Parsing via Staged Query Graph Generation 中，对自己的结果进行了错误分析，错误中 8% 来自实体链接，35% 来自关系匹配错误，所以关系识别很重要。

➋

深度学习方法与传统方法之间的比较：知识表示，答案问句匹配，优缺点

对于知识表示传统知识表示应该是逻辑符号，深度学习应该就是向量了，目前得分最高的是传统方法。

对于答案匹配，传统方法是问句解析，CCG 或者模板；向量的方法就是将问句和知识库相关的子图部分进行神经网络的特征学习。

我个人觉得目前要准确肯定是传统方法，但是耗费人力。似乎 web question 的数据集上，传统的方法是最高分，而且，目前深度学习的方法很难解决复杂关系问句，复杂问句一般会包含两个或以上的关系，目前的深度学习方法只是针对单关系的。

➌

目前的方法存在哪些挑战？（诸如：复杂问句处理；数据集构造；知识库推理等）

对于复杂关系问句处理，最直观的想法似乎就是将复杂问句拆分成多个简单问句，简单问句一般是 entity1+relation—>entity2。

对于数据集构造，目前的数据集多是简单事实类问句训练集，还是应该把语料库丰富起来。

对于知识库推理，有人觉得深度学习很难进行推理。考虑的就是先对知识库进行补全，比如把“老婆的父亲”直接在 KB 中补成“岳父”的属性，这样就将两个关系变成一个关系了，变相解决复杂问句。另有人觉得理论上，只要联通的实体就可以用一条边直接相连，只是要给这条边一个属性。

➍

针对以上各问题分别有哪些新的研究进展？

对于并列的复杂问句，有人通过句法依存关系拆解成两个问句然后将问题合并。但我觉得并不是一个很完美办法。

kb 中可以进行子图补全吧，比如把老婆的父亲，可以在关联到子图后，用推理的方法进行补全子图关系。

我觉得句法分析挺好，但那篇文章"Automated Template Generation for Question Answering over Knowledge Graphs Abdalghani" 似乎只解决了并列关系。

基于一个基本的假设，如果一句话里出现了知识库里一个关系的相关实体，那么假设这句话就描述了这个关系，Distant supervision for relation extraction without labeled data。

相关论文和数据集可以参考吴桐桐同学的GitHub：

https://github.com/wutong8023/awesome-question-answering

➎

关于KBQA，国内外有哪些研究团队、学者？

国内有中科院自动化所赵军、刘康、何世柱团队。北京大学的冯岩松老师的团队在文本知识库联合问答方面也颇有研究。

➏

有哪些值得读的论文和开源项目（侧重创新性和前瞻性）？

开源有斯坦福的 deepdive，中文开放知识图谱（简称 OpenKG.CN）中收录了不少优质开源工具和数据集，详细地址：http://openkg.cn/tool

参与讨论

请在48小时内长按识别以下二维码添加管理员微信，备注「知识图谱」申请入群。

由于申请人数较多，超时提交的入群申请，管理员将在下期讨论结束后统一进行处理。

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

实体

关注 12

实体（entity）是有可区别性且独立存在的某种事物，但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里，这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面，实体可以被视为一全包的词语。有时，实体被当做本质的广义，不论即指的是否为物质上的存在，如时常会指涉到的无物质形式的实体－语言。更有甚者，实体有时亦指存在或本质本身。在法律上，实体是指能具有权利和义务的事物。这通常是指法人，但也包括自然人。

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

一份简短《图神经网络GNN》笔记，入门小册

专知会员服务

226+阅读 · 2020年4月11日

【PUC-牛津-ICLR2020】图神经网络的逻辑表达性，The Logical Expressiveness of GNN

专知会员服务

29+阅读 · 2020年3月15日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日