DeepMind发布难度更大的机器阅读理解数据集NarrativeQA（附论文） - 专知

会员服务 ·

0

DeepMind发布难度更大的机器阅读理解数据集NarrativeQA（附论文）

2017 年 12 月 21 日 论智 Bing

来源：arXiv

编译：Bing

与通常的信息检索相反，让机器学会做阅读理解（reading comprehension）需要整合整篇文档中所有的事件信息、人物关系。问题回答（question answering）通常用于评估机器或者儿童学习时的阅读理解能力。然而，现有的阅读理解（RC）数据集和相关任务中的大部分问题都可以通过很表面的信息解答，在阅读理解中却没有深层次、本质上的问题。

近日，DeepMind研究者提出了一种新的、难度更大的数据集NarrativeQA，读者必须阅读整本书或整个剧本才能回答有关故事的问题，也就是说必须彻底理解了故事内容后，才有可能成功回答深层次的问题。最后的结果表明，虽然人类能很容易地回答问题，但RC模型却面临很多挑战。在对话页面回复“qa”即可获取PDF版论文。

其他模型回顾

在NarrativeQA之前，也有很多用于训练阅读理解模型的数据集，例如MCTest、CNN/Daliy Mail、CBT、BookTest、SQuAD、NewsQA、MS MARCO以及SearchQA等。下表就展示了这几种数据集的基本情况和主要特点。

但是，这些数据集都存在着几个共同的问题：例如有些数据集很小或者不太自然（比如MCTest）；在一些更自然的文本中，大多数问题的答案只在一个句子中就能找到；问题的答案趋向于利用源于局部上下文和问题本身的表示的跨距选取（这是问题在架构上的肤浅性的进一步证据）。

NarrativeQA：一个新的数据集

在发现了上述几种数据集的局限性后，研究人员决定建立一个新的数据集，对于这个新数据集，他们同样有几点要求：

希望该数据集基于大量的支持文档或少量的大型文档之上，以确保神经网络模型能在词嵌入上进行训练，同时还能覆盖大量词汇；
研究人员希望注释者（annotators）能用自己的话写出答案，能把握人物、地点、事件之间更高层次的关系，而不是简单的复制原文；
研究人员还将评估模型生成答案时是否流畅、是否正确，同时还要评估备选答案的干扰程度是否达标；
评估问答题的范围和复杂程度，这也是当前所有QA模型的共同难题。

数据收集方法

研究人员从Gutenberg网站上搜集了一些书籍，从其他网站搜集了电影剧本，最终汇集了1567个故事。与其他数据集相比，这个数据集里的样本比较少，但是每篇文档都很长，这就保证了用词的多样性。

然后，研究人员将其放到亚马逊的Mechanical Turk平台上，让注释者根据每篇故事的摘要，设计10个问题并写出答案，注意，这里的注释者没有看过完整的故事，他们只是根据给出的摘要设计问题。

问题开头第一个最常见的token

300个样本中的问题类型

最终，数据集中共有46765个问答题，每个摘要大约对应30个问答题。每个问题的平均token长度是9.8，大多数都以“WH-”开头。而答案的长度较短，平均为4.73个token。

实验过程

研究人员将模型应用于两个任务，一个是阅读摘要，另一个是阅读整个故事。

首先，阅读摘要与之前的阅读理解任务相似，其问题是根据上下文构建的。但是，有关故事情节的摘要往往包含更复杂的时间线和更多的人物。在这个意义上，阅读有情节的摘要往往要比维基百科的新闻文章或段落摘要难一些。结果如下：

分数越高越好

神经跨度模型明显优于其他方法，然而与人类和数据集相比还有一定差距。

另外，阅读整篇故事后所得结果如下：

结果与人类的表现差距较大，这也表明该项目的目标，即创建对人类来说是现实、直接的数据库，是成功的。但是这对于当前的阅读理解模型来说却非常困难。

结语

新构建的NarrativeQA模型是在现有数据集和任务的局限性上建立起来的，虽然相较以往有了提高，但是又暴露出了新的问题：难以理解小说，与新闻相比，小说的人物、事件和关系更丰富。

在经过分析和评估后，研究人员希望这一研究方向能够缩小现有模型和人类水平之间的差距。他们希望这一数据集不仅能为机器阅读服务，而是成为新型神经模型发展的动力。

登录查看更多

3

相关内容

机器阅读理解

机器阅读理解

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务：让机器像人类一样阅读文本，进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

专知会员服务

85+阅读 · 2020年6月16日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

专知会员服务

26+阅读 · 2019年11月23日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

63+阅读 · 2019年10月27日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

CCCF专栏 | 朱晨光：机器阅读理解：如何让计算机读懂文章

CCCF专栏 | 朱晨光：机器阅读理解：如何让计算机读懂文章

中国计算机学会

24+阅读 · 2019年2月15日

谷歌发布问答系统新语料，同时发布相关挑战赛

谷歌发布问答系统新语料，同时发布相关挑战赛

AI研习社

4+阅读 · 2019年2月10日

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

机器之心

4+阅读 · 2018年6月13日

DeepMind论文解读：让机器更深入地理解文本

DeepMind论文解读：让机器更深入地理解文本

PaperWeekly

9+阅读 · 2018年6月8日

DuReader：百度大规模的中文机器阅读理解数据集

DuReader：百度大规模的中文机器阅读理解数据集

全球人工智能

7+阅读 · 2018年5月8日

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

机器之心

6+阅读 · 2018年2月22日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

PaperWeekly

6+阅读 · 2017年10月20日

资源：10份机器阅读理解数据集 | 论文集精选 #02

资源：10份机器阅读理解数据集 | 论文集精选 #02

PaperWeekly

11+阅读 · 2017年9月16日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph

Arxiv

6+阅读 · 2018年10月4日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

A Read-Write Memory Network for Movie Story Understanding

Arxiv

5+阅读 · 2018年3月16日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员

相关主题

机器阅读理解

必应（Bing）

相关VIP内容

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

专知会员服务

85+阅读 · 2020年6月16日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

专知会员服务

26+阅读 · 2019年11月23日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

63+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

CCCF专栏 | 朱晨光：机器阅读理解：如何让计算机读懂文章

CCCF专栏 | 朱晨光：机器阅读理解：如何让计算机读懂文章

中国计算机学会

24+阅读 · 2019年2月15日

谷歌发布问答系统新语料，同时发布相关挑战赛

谷歌发布问答系统新语料，同时发布相关挑战赛

AI研习社

4+阅读 · 2019年2月10日

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

机器之心

4+阅读 · 2018年6月13日

DeepMind论文解读：让机器更深入地理解文本

DeepMind论文解读：让机器更深入地理解文本

PaperWeekly

9+阅读 · 2018年6月8日

DuReader：百度大规模的中文机器阅读理解数据集

DuReader：百度大规模的中文机器阅读理解数据集

全球人工智能

7+阅读 · 2018年5月8日

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

机器之心

6+阅读 · 2018年2月22日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

PaperWeekly

6+阅读 · 2017年10月20日

资源：10份机器阅读理解数据集 | 论文集精选 #02

资源：10份机器阅读理解数据集 | 论文集精选 #02

PaperWeekly

11+阅读 · 2017年9月16日

相关论文

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph

Arxiv

6+阅读 · 2018年10月4日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

A Read-Write Memory Network for Movie Story Understanding

Arxiv

5+阅读 · 2018年3月16日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

大家都在搜

大型语言模型

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员