三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03

2017 年 10 月 20 日 PaperWeekly RamonYeung

PaperWeekly 是一个 AI 学术分享社区。这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文。点击本文底部的阅读原文」即刻加入社区,创建属于你的论文集。

这里是第 3 期论文集精选。

本期论文集由 PaperWeekly 社区用户 @RamonYeung 创建,包含 20 份 QA机器阅读理解数据集我们从中挑选了 9 份数据集进行展示,如果有合你心意的,复制链接到浏览器即可进行下载。

如果你想查看完整数据集列表,点击本文底部的阅读原文,就可以一键收藏啦。


On Generating Characteristic-rich Question Sets for QA Evaluation

@RamonYeung 推荐

#Question Answering

文章发表在 EMNLP 2016,本文详细阐述了 GraphQuestions 这个数据集的构造方法,强调这个数据集是富含特性的(Characteristic-rich)。

此数据集的主要特点是:

1. 基于 Freebase,有 5166 个问题,涉及 148 个不同领域;

2. 从知识图谱中产生 Minimal Graph Queries,再将 Query 自动转换成规范化的问题;

3. 由于 2,Logical Form 不需要人工标注,也不存在无法用 Logical Form 表示的问题;

4. 使用人工标注的办法对问题进行 paraphrasing,使得每个问题有多种表述方式(答案不变),主要是 Entity-level Paraphrasing,也有 sentence-level;

5. Characteristic-rich 指数据集提供了问题在下列维度的信息,使得研究者可以对问答系统进行细粒度的分析, 找到研究工作的前进方向:关系复杂度(Structure Complexity),普遍程度(Commonness),函数(Function),多重释义(Paraphrasing),答案候选数(Answer Cardinality)。

论文链接

http://www.paperweekly.site/papers/906

数据集链接

https://github.com/ysu1989/GraphQuestions

LSDSem 2017 Shared Task: The Story Cloze Test

@RamonYeung 推荐

#Cloze

Story Cloze Test:人工合成的完形填空数据集。

论文链接

http://www.paperweekly.site/papers/917

数据集链接

http://cs.rochester.edu/nlp/rocstories/


Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering

@RamonYeung 推荐

#Question Answering

百度深度学习实验室创建的中文开放域事实型问答数据集。

论文链接

http://www.paperweekly.site/papers/914

数据集链接

http://idl.baidu.com/WebQA.html


Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems

@RamonYeung 推荐

#Question Answering

DeepMind 和牛津大学共同打造的代数问题数据集 AQuA(Algebra Question Answering)。

论文链接

http://www.paperweekly.site/papers/913


数据集链接

https://github.com/deepmind/AQuA


Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems

@PaperWeekly 推荐

#Dialog Systems

Maluuba 放出的对话数据集。

论文链接

http://www.paperweekly.site/papers/407


数据集链接

http://datasets.maluuba.com/Frames


Teaching Machines to Read and Comprehend

@RamonYeung 推荐

#Machine Comprehension

DeepMind Q&A Dataset 是一个经典的机器阅读理解数据集,分为两个部分:

1. CNN:~90k 美国有线电视新闻网(CNN)的新闻文章,~380k 问题;

2. Daily Mail:~197k DailyMail 新闻网的新闻文章(不是邮件正文),~879k 问题。

论文链接

http://www.paperweekly.site/papers/915


数据集链接

http://cs.nyu.edu/~kcho/DMQA/


Semantic Parsing on Freebase from Question-Answer Pairs

@RamonYeung 推荐

#Semantic Parsing

文章发表在 EMNLP-13,The Stanford NLP Group 是世界领先的 NLP 团队。他们在这篇文章中引入了 WebQuestions 这个著名的问答数据集,WebQuestion 主要是借助 Google Suggestion 构造的,依靠 Freebase(一个大型知识图谱)中的实体来回答,属于事实型问答数据集(比起自然语言,容易评价结果优劣)。有 6642 个问答对。

最初,他们构造这个数据集是为了做 Semantic Parsing,以及发布自己的系统 SEMPRE system。

论文链接

http://www.paperweekly.site/papers/827


数据集链接

http://t.cn/RWPdQQO


A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories

@RamonYeung 推荐

#Machine Comprehension

ROCStories dataset for story cloze test.

论文链接

http://www.paperweekly.site/papers/918


数据集链接

http://cs.rochester.edu/nlp/rocstories/


MoleculeNet: A Benchmark for Molecular Machine Learning

@paperweekly 推荐

#Molecular Machine Learning

一个分子机器学习 benchmark,最喜欢看到这种将机器学习应用到传统学科领域了。

论文链接

http://www.paperweekly.site/papers/862


数据集链接

http://t.cn/RWPda8r

本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!

 投票时间 

以下论文选自 PaperWeekly 社区 - 排行榜,这里不仅有各领域的经典论文,还有当下最热门的新近之作。

所有论文均为用户自发推荐,然后再以点赞的方式评选出热门论文。最后,我们会针对上榜论文发起论文共读,让志同道合的同学们得到充分交流。

现在,就请选出你最感兴趣的论文,我们将根据大家的投票结果选出本期论文。

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 收藏论文集

登录查看更多
6

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
92+阅读 · 2020年1月10日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
44+阅读 · 2020年1月10日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
72+阅读 · 2019年11月3日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
38+阅读 · 2019年11月3日
CMU博士论文:可微优化机器学习建模
专知会员服务
60+阅读 · 2019年10月26日
论文浅尝 | 近期论文精选
开放知识图谱
5+阅读 · 2018年7月8日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
近期AI领域8篇精选论文(附论文、代码)
数据派THU
4+阅读 · 2018年3月24日
经典论文解读 | 基于Freebase的问答研究
PaperWeekly
3+阅读 · 2018年3月22日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
Arxiv
8+阅读 · 2019年3月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关VIP内容
相关资讯
论文浅尝 | 近期论文精选
开放知识图谱
5+阅读 · 2018年7月8日
论文浅尝 | 基于Freebase的问答研究
开放知识图谱
5+阅读 · 2018年3月26日
近期AI领域8篇精选论文(附论文、代码)
数据派THU
4+阅读 · 2018年3月24日
经典论文解读 | 基于Freebase的问答研究
PaperWeekly
3+阅读 · 2018年3月22日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
Top
微信扫码咨询专知VIP会员