资源 | MIT自然语言处理数据集和语料库集合

2017 年 3 月 21 日 机器之心

选自Github

作者:Karthik Narasimhan等

机器之心编译

参与:李泽南


最近,麻省理工学院(MIT)的在读博士 Karthik Narasimhan 发起了一个为自然语言处理(NLP)准备的数据集/语料库列表,以时间顺序排列。该列表将持续更新。


项目地址:https://github.com/karthikncode/nlp-datasets


范围


  • 问答系统

  • 对话系统

  • 面向目标的对话系统


问答系统


MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016。

论文:https://arxiv.org/abs/1611.09268

数据:http://www.msmarco.org/


NewsQA:Maluuba 的机器理解数据集,2016。

论文:https://arxiv.org/abs/1611.09830

数据:https://github.com/Maluuba/newsqa


SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016。

论文:https://arxiv.org/abs/1606.05250

数据:https://rajpurkar.github.io/SQuAD-explorer/


GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。

论文:http://suo.im/4u7oFE

数据:https://github.com/ysu1989/GraphQuestions


Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016。

论文:https://arxiv.org/abs/1604.01696

数据:http://cs.rochester.edu/nlp/rocstories/


Children's Book Test:金发女孩原则(当给定样品的一些属性可以从一个极端到另一个极端(例如从极冷至极热)的尺度分布时,一些数据将落在这些极端之间): 以内存显式方式表示的儿童图书,2015。

论文:https://arxiv.org/abs/1511.02301

数据:http://cs.rochester.edu/nlp/rocstories/


SimpleQuestions:大量使用记忆网络的简单问答数据,2015。

论文:https://arxiv.org/pdf/1506.02075v1.pdf

数据:http://suo.im/2eiX0O。


WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015。

论文:http://suo.im/1bqPMh

数据:http://suo.im/3aJVyp


CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015。

论文:https://arxiv.org/abs/1506.03340

代码:https://github.com/deepmind/rc-data

数据:http://cs.nyu.edu/~kcho/DMQA/。


QuizBowl:一个神经网络,用于长段回答事实问题,来自马里兰大学,2014。

论文:http://suo.im/2xcBDv

数据:http://suo.im/3O37SP


MCTest:一个用于开放问题机器理解文本的数据集,来自微软,2013。

论文:http://suo.im/VLBOk

数据:http://suo.im/gZDhk


QASent:Jeopardy 模型?一个用于机器问答的准同步语法数据集,2007。

论文:http://suo.im/3mxr3C

数据:http://suo.im/4mrv9H


对话系统


Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015。

论文:https://arxiv.org/abs/1506.08909

数据:http://suo.im/2pbKCC


面向目标的对话系统


Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016。

论文:http://suo.im/36jcl2

数据:http://datasets.maluuba.com/Frames


DSTC 2 & 3:对话状态跟踪挑战(Dialog State Tracking Challenge)2 和 3,2013。

论文:http://suo.im/2PzSZc

数据:http://camdial.org/~mh521/dstc/  



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:editor@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
0

相关内容

Karthik Narasimhan,普林斯顿大学计算机科学系助理教授,研究跨越自然语言处理和强化学习。
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【IJCAI2020-CMU】结构注意力的神经抽象摘要
专知会员服务
21+阅读 · 2020年4月23日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
Image Captioning based on Deep Reinforcement Learning
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
Top
微信扫码咨询专知VIP会员