Facebook开源问答系统DrQA：基于单一信源回答开放域提问

2017 年 7 月 27 日 量子位 专注报道AI

问耕编译整理
量子位出品 | 公众号 QbitAI

今天一大早，Yann LeCun就转发了一条消息：Facebook开源了DrQA的代码。

DrQA是一个开放域问答系统。

关于DrQA，Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions（阅读维基百科来回答开放域问题）》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。

论文的作者为来自斯坦福的Danqi Chen（陈丹琦，之前毕业于清华姚班），以及来自Facebook人工智能实验室（FAIR）的Adam Fisch，Jason Weston，Antoine Bordes。

Adam Fisch介绍说，DrQA的主要任务是大规模机器阅读（MRS）。在这种情况下，DrQA会在一个非常庞大的非结构化文档语料库中寻找问题的答案。因此，这个系统最大的挑战就是文档检索与文本的机器理解如何更好的结合。

论文摘要

△ DrQA系统架构

这篇论文提出使用维基百科作为唯一的知识来源，以解决开放域问答。任何事实性提问的答案，都是来自维基百科中的内容。

我们的方法结合了基于二元语法哈希（bigram hashing）和TF-IDF匹配的搜索组件，以及一个训练用来在维基百科段落中寻找答案的RNN模型。

我们在多个现有问答数据库上的实验表明：1、上述两个模块与现有方案相比优势很大 2、使用远监督的多任务学习，可以让上述组合更高效的完成任务。

为了回答任何问题，DrQA必须首先检索超过500万个条目中的相关文章，然后仔细扫描以确定答案。我们把这个成为大规模机器阅读（MRS）。

我们的工作将维基百科视为文章的集合，而不依赖于其内部图形结构。因此，这个通用方法可以切换到其他文件、书籍或是日报等领域。

像IBM DeepQA这样的大规模问答系统，依赖于多个来源给出答案：除了维基百科，DeepQA还是用了知识库、词典、新闻、书籍等。因此这样的系统严重依赖信息冗余来获得正确答案。

而只有单一知识来源，迫使模型在搜索答案时必须非常精确，因为相关证据可能只会出现一次。因此，这对机器阅读能力是一个挑战。

获取论文，可以在量子位微信公众号（QbitAI）对话界面回复：“drqa”四个字母。

开源代码

Facebook已经把DrQA问答系统的PyTorch实现公布在GitHub上。地址在此：

https://github.com/facebookresearch/DrQA

在这个页面上，Facebook还展示了一下DrQA的问答界面，我们挑选几个给大家看看。首先是这个问题：“生命、宇宙和一切的答案是什么？”

安装DrQA需要Python 3.5或以上，当然也需要安装PyTorch。更多细节都在requirements.txt中。

另外，Facebook还提供了预训练的模型，以及维基百科问答数据。这部分内容大小为7.5GB，解压之后约为25GB大小。

【完】

活动报名

8月9日(周三)晚，量子位邀请三角兽首席科学家王宝勋，分享基于对抗学习的生成式对话模型，欢迎点击这里报名~

交流沟通

量子位还有自动驾驶、NLP、CV、机器学习等专业讨论群，仅接纳相应领域的一线工程师、研究人员等。

请添加小助手qbitbot2为微信好友，提交相应说明，符合条件将被邀请入群。（审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者等岗位，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

登录查看更多

相关内容

DrQA

关注 0

ACL2020 开始了！看这份Tutorial《开放域问答》，普林斯顿陈丹琦

专知会员服务

59+阅读 · 2020年7月5日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

漫谈机器阅读理解之Facebook提出的DrQA系统

深度学习每日摘要

18+阅读 · 2017年11月19日

资源 | Facebook开源DrQA的PyTorch实现：基于维基百科的问答系统

机器之心

3+阅读 · 2017年7月29日

技术动态 | 揭开知识库问答 KB-QA 的面纱 9 · 非结构化知识源篇

开放知识图谱

9+阅读 · 2017年6月15日

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

From VQA to Multimodal CQA: Adapting Visual QA Models for Community QA Tasks

Arxiv

8+阅读 · 2018年8月29日

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Comparative Analysis of Neural QA models on SQuAD

Arxiv

6+阅读 · 2018年6月18日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

VIP会员

Facebook开源问答系统DrQA：基于单一信源回答开放域提问

问耕 编译整理量子位 出品 | 公众号 QbitAI

论文摘要

△ DrQA系统架构

开源代码

活动报名

交流沟通

诚挚招聘

相关内容

问耕编译整理
量子位出品 | 公众号 QbitAI