资源：10份机器阅读理解数据集 | 论文集精选 #02

会员服务 ·

资源：10份机器阅读理解数据集 | 论文集精选 #02

2017 年 9 月 16 日 PaperWeekly 小助手

PaperWeekly 是一个 AI 学术分享社区。这里聚集了大批一线 AI 学者，他们用精炼妙语推荐各自发现的优质论文。现在就注册 PaperWeekly社区，创建属于你的论文集吧！

这里是第 2 期论文集精选。

本期我们为大家搬运了 PaperWeekly 社区的热门论文集 - 机器阅读理解数据集，包含 10 份经典机器阅读理解数据集。

如果你想一键收藏该论文集，点击本文底部的阅读原文，即可进行收藏。

❶

Teaching Machines to Read and Comprehend
PaperWeekly 推荐

#数据集

经典的机器阅读理解数据集 CNN/Daily Mail。

论文链接：http://www.paperweekly.site/papers/490

❷

The LAMBADA dataset: Word prediction requiring a broad discourse context

PaperWeekly 推荐

#数据集

大型数据集是深度学习技术发展的重要基础，数据集的质量和难度也直接关系着模型的质量和实用性。机器阅读理解的数据集有很多，包括中文和英文的数据集，每一个的构建都会带来模型的创新，随着难度不断增加，对模型也提出了更高的要求。本文在构建数据集过程中为了保证任务的难度所采取的方法是值得借鉴的。

论文链接：http://www.paperweekly.site/papers/488

❸

The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations

PaperWeekly 推荐

#数据集

经典的机器阅读理解数据集 Children’s Book Test (CBT)。

论文链接：http://www.paperweekly.site/papers/489

❹

SQuAD: 100,000+ Questions for Machine Comprehension of Text

PaperWeekly 推荐

#数据集

非常有名的机器阅读理解数据集，并且举办了一个相关的比赛。

论文链接：http://www.paperweekly.site/papers/408

❺

RACE: Large-scale ReAding Comprehension Dataset From Examinations

PaperWeekly 推荐

#数据集

Machine Reading Comprehension 这个领域非常活跃，尤其是经常分享出大规模的数据集。本文开放出的数据集为中国中学生英语阅读理解题目，给定一篇文章和 5 道 4 选 1 的题目，包括了 28000+ passages 和 100,000 问题。

论文链接：http://www.paperweekly.site/papers/361

❻

Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems
PaperWeekly 推荐

#数据集

Maluuba 放出的对话数据集。

论文链接：http://www.paperweekly.site/papers/407

❼

Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推荐

#数据集

分享一个 QA 大型数据集，数据来自 Stack Overflow。

论文链接：http://www.paperweekly.site/papers/354

❽

NewsQA: A Machine Comprehension Dataset

PaperWeekly 推荐

#数据集

这篇文章来自于 Maluuba Research，介绍了一个新的数据集 NewsQA 用于机器阅读理解 (Machine Reading Comprehension)，NewQA 提供了超过 10 万经过人工标注得到的问题-答案 (question-answer) 对。这些问题和答案来自于美国 CNN 的 10,000 多篇新闻文章，答案还包括了相应文章以及文字段落。数据集的收集包含了 4 个阶段，旨在得到那些经过推理 (reasoning) 才能回答的问题。

文中的分析也支持了 NewsQA 的问题回答超出了简单的语言匹配和文本识别。最后文章测量了人类在这个数据集上的表现，并将其与几个神经模型进行了比较，机器与人类之间的差距 (0.198 in F1 score) 表明现有模型仍有很大的进步空间。

Machine Reading Comprehension 最近两年在 NLP 领域得到了大量关注，这篇文章在 Related work 部分详细介绍了目前主流的几个数据集以及它们的优缺点，比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是，相比较于由 Stanford NLP Group 整理的 SQuAD，NewsQA 包含了更多的文章和问题，而且需要复杂推理的问题也比 SQuAD 更多 (33.9% v.s 20.5%)。

论文链接：http://www.paperweekly.site/papers/359

❾

MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

PaperWeekly 推荐

#数据集

微软放出的机器阅读理解数据集。

论文链接：http://www.paperweekly.site/papers/406

❿

Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推荐

#数据集

本文提出阅读理解领域的一个新的数据集，称为 triviaQA, 文章从 14 个问答网站收集问答对，然后根据问答对，将 bing 的搜索结果和维基百科的相关页融合出文章，从而形成文章-问题-答案的数据样本。

数据集包括 650k 的 document-query-answer 对，95k 的问答对，在规模上超出了之前阅读理解的主流数据集。在对数据集进行采样分析得出，数据集中约 69% 的问题与文章具有不同的句法结构，41% 具有多义词或者短语，40% 的答案需要多句联合推断才能得出答案，答案并不完全是文章中的子文本串，在这个数据集的基础上，作者实现了三个模型，随机实体模型，实体分类器，和 BiDAF 网络（其中 BiDAF 网络在 Squad 数据集中取得较好的成绩，当前排第六名，EM 分与人类相比差 9 个点），在 triviaQA 上分别取得了约 15%，20%，40% 的效果，远低于人类的表现 80%，这个巨大的鸿沟也意味着数据集对领域有着较大的推动作用。

本文还对模型的表现进行分析，可以看出，在长文本，文本信息冗余，联合推断等情况下，当前模型的表现都还不够好。这也意味着在阅读理解领域，还有很多工作有待探索。

论文链接：http://www.paperweekly.site/papers/293

EMNLP 2017 刚刚闭幕，PaperWeekly 社区将会发起一个“EMNLP 2017 好文推荐”活动。在社区里推荐你觉得不错的 paper，听起来很像我们小时候看春晚时填写的“观众最喜欢的春晚节目单”。大家推荐到社区的 paper，请用 #EMNLP2017# 作为标识标签，我们会按点赞数进行排名，取前三名作为“幸运观众”，送出 PaperWeekly 精心准备的神秘礼物。

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。