三分熟博士生の阅读理解与问答数据集

会员服务 ·

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

2017 年 10 月 20 日 PaperWeekly RamonYeung

PaperWeekly 是一个 AI 学术分享社区。这里聚集了大批一线 AI 学者，他们用精炼妙语推荐各自发现的优质论文。点击本文底部的「阅读原文」即刻加入社区，创建属于你的论文集。

这里是第 3 期论文集精选。

本期论文集由 PaperWeekly 社区用户 @RamonYeung 创建，包含 20 份 QA 和机器阅读理解数据集。我们从中挑选了 9 份数据集进行展示，如果有合你心意的，复制链接到浏览器即可进行下载。

如果你想查看完整数据集列表，点击本文底部的阅读原文，就可以一键收藏啦。

On Generating Characteristic-rich Question Sets for QA Evaluation

@RamonYeung 推荐

#Question Answering

文章发表在 EMNLP 2016，本文详细阐述了 GraphQuestions 这个数据集的构造方法，强调这个数据集是富含特性的（Characteristic-rich）。

此数据集的主要特点是：

1. 基于 Freebase，有 5166 个问题，涉及 148 个不同领域；

2. 从知识图谱中产生 Minimal Graph Queries，再将 Query 自动转换成规范化的问题；

3. 由于 2，Logical Form 不需要人工标注，也不存在无法用 Logical Form 表示的问题；

4. 使用人工标注的办法对问题进行 paraphrasing，使得每个问题有多种表述方式（答案不变），主要是 Entity-level Paraphrasing，也有 sentence-level；

5. Characteristic-rich 指数据集提供了问题在下列维度的信息，使得研究者可以对问答系统进行细粒度的分析, 找到研究工作的前进方向：关系复杂度（Structure Complexity），普遍程度（Commonness），函数（Function），多重释义（Paraphrasing），答案候选数（Answer Cardinality）。

论文链接

http://www.paperweekly.site/papers/906

数据集链接

https://github.com/ysu1989/GraphQuestions

LSDSem 2017 Shared Task: The Story Cloze Test

@RamonYeung 推荐

#Cloze

Story Cloze Test：人工合成的完形填空数据集。

论文链接

http://www.paperweekly.site/papers/917

数据集链接

http://cs.rochester.edu/nlp/rocstories/

Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering

@RamonYeung 推荐

#Question Answering

百度深度学习实验室创建的中文开放域事实型问答数据集。

论文链接

http://www.paperweekly.site/papers/914

数据集链接

http://idl.baidu.com/WebQA.html

Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems

@RamonYeung 推荐

#Question Answering

DeepMind 和牛津大学共同打造的代数问题数据集 AQuA（Algebra Question Answering）。

论文链接

http://www.paperweekly.site/papers/913

数据集链接

https://github.com/deepmind/AQuA

Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems

@PaperWeekly 推荐

#Dialog Systems

Maluuba 放出的对话数据集。

论文链接

http://www.paperweekly.site/papers/407

数据集链接

http://datasets.maluuba.com/Frames

Teaching Machines to Read and Comprehend

@RamonYeung 推荐

#Machine Comprehension

DeepMind Q&A Dataset 是一个经典的机器阅读理解数据集，分为两个部分：

1. CNN：~90k 美国有线电视新闻网（CNN）的新闻文章，~380k 问题；

2. Daily Mail：~197k DailyMail 新闻网的新闻文章（不是邮件正文），~879k 问题。

论文链接

http://www.paperweekly.site/papers/915

数据集链接

http://cs.nyu.edu/~kcho/DMQA/

Semantic Parsing on Freebase from Question-Answer Pairs

@RamonYeung 推荐

#Semantic Parsing

文章发表在 EMNLP-13，The Stanford NLP Group 是世界领先的 NLP 团队。他们在这篇文章中引入了 WebQuestions 这个著名的问答数据集，WebQuestion 主要是借助 Google Suggestion 构造的，依靠 Freebase（一个大型知识图谱）中的实体来回答，属于事实型问答数据集（比起自然语言，容易评价结果优劣）。有 6642 个问答对。

最初，他们构造这个数据集是为了做 Semantic Parsing，以及发布自己的系统 SEMPRE system。

论文链接

http://www.paperweekly.site/papers/827

数据集链接

http://t.cn/RWPdQQO