自然语言处理数据集免费资源开放（附学习资料）

会员服务 ·

自然语言处理数据集免费资源开放（附学习资料）

2017 年 10 月 2 日 数据派THU 数据派

作者：Jason Brownlee

翻译：梁傅淇

本文长度为1500字，建议阅读3分钟

本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接，对于有志于练习自然语言处理的新手而言，是极有帮助的资源。

在你刚开始入手自然语言处理任务时，你需要数据集来练习。

最好是使用小型数据集，这样你可以快速下载，也不用花费很长的时间来调试模型。同时，使用被广泛使用和了解的标准数据集也是有所帮助的，你可以用你的结果来做比较，看一下是否有所进步。

在这篇博文中，你会找到一系列标准数据集来开始你的深度学习之旅。

总览

这篇博文被分成七个部分，它们是：

1. 文本分类（Text Classification）

2. 语言模型（Language Modeling）

3. 图像字幕（Image Captioning）

4. 机器翻译（Machine Translation）

5. 问答系统（Question Answering）

6. 语音识别（Speech Recognition）

7. 自动文摘（Document Summarization）

我已经尝试提供一系列被广泛使用于学术论文且规模适中的数据集。

几乎所有的数据集都是公开免费下载的。

如果你最喜欢的数据集没有被列出来，又或者你认为你所了解的更好的数据集应该被列出来的话，请在评论里告诉我。

我们开始吧。

1. 文本分类（Text Classification）

文本分类指的是标记句子或者文档，比如说垃圾邮件分类和情感分析。

以下是一些对于新手而言非常棒的文本分类数据集：

Reuters Newswire Topic Classification(Reuters-21578)（http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html）。

一系列1987年在路透上发布的按分类索引的文档。同样可以看RCV1，RCV2，以及TRC2

（http://trec.nist.gov/data/reuters/reuters.html）。

IMDB Movie Review Sentiment Classification (Stanford)（http://ai.stanford.edu/~amaas/data/sentiment/c）。

一系列从网站imdb.com上摘取的电影评论以及他们的积极或消极的情感。

News Group Movie Review Sentiment Classification (cornell)（http://www.cs.cornell.edu/people/pabo/movie-review-data/）。

更多的信息，可以从这篇博文中获取：Datasets for single-label text categorization

（http://ana.cachopo.org/datasets-for-single-label-text-categorization）。

2. 语言模型（Language Modeling）

语言模型涉及建设一个统计模型来根据给定的信息，预测一个句子中的下一个单词，或者一个单词中的下一个字母。这是语音识别或者机器翻译等任务的前置任务。

下面是一些对于新手来说非常棒的语言模型数据集：

Project Gutenberg
（https://www.gutenberg.org/）。

以下是一些更正式的语料集：

Brown University Standard Corpus of Present-Day American English
（https://en.wikipedia.org/wiki/Brown_Corpus）。

大型英语单词示例。

Google 1 Billion Word Corpus
（https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark）。

3. 图像字幕（Image Captioning）

图像字幕是为给定图像生成文字描述的任务。

以下是对新手非常有帮助的图像字幕数据集：

Common Objects in Context (COCO)（http://mscoco.org/dataset/#overview）。

超过120，000张带描述的图片集合。

Flickr 8K（http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html）。

从flickr.com收集的超过8000带描述的图片集合。

Flickr 30K（http://shannon.cs.illinois.edu/DenotationGraph/）。

从flickr.com收集的超过30000带描述的图片集合。

要获得更多的资讯，可以看这篇博客：Exploring Image Captioning Datasets, 2016

（http://sidgan.me/technical/2016/01/09/Exploring-Datasets）。

4. 机器翻译（Machine Translation）

机器翻译即将一种语言翻译成另一种语言的任务。

以下是对新手而言很棒的机器翻译数据集：

Aligned Hansards of the 36th Parliament of Canada
（https://www.isi.edu/natural-language/download/hansard/）。

英法对应的句子。

European Parliament Proceedings Parallel Corpus 1996-2011
（http://www.statmt.org/europarl/)。

一系列欧洲语言的成对句子。

被用于机器翻译的标准数据集还有很多：

Statistical Machine Translation
(http://www.statmt.org/)。

5. 问答系统（Question Answering）

以下是对新手而言很棒的问答系统数据集：

Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/）。

关于维基百科文章的问答。

Deepmind Question Answering Corpus

（https://github.com/deepmind/rc-data）。

有关Daily Mail的新闻问答。

Amazon question/answer data

（http://jmcauley.ucsd.edu/data/amazon/qa/）。

关于亚马逊产品的问答。

更多信息，参见：

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

（https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality）

6. 语音识别（Speech Recognition）

语音识别就是将口语语言的录音转换成人类可读的文本。

以下是对新手而言很棒的语音识别数据集：

TIMIT Acoustic-Phonetic Continuous Speech Corpus

（https://catalog.ldc.upenn.edu/LDC93S1）。

付费，这里列出是因为它被广泛使用。美语口语以及相关转写。

VoxForge（http://voxforge.org/）。

为语音识别而建设开源数据库的项目。

LibriSpeech ASR corpus

（http://www.openslr.org/12/）。

从LibriVox（https://librivox.org/）获取的英语有声书大型集合。

7. 自动文摘（Document Summarization）

自动文摘即产生对大型文档的一个短小而有意义的描述。

以下是对新手而言很棒的自动文摘数据集：

Legal Case Reports Data Set

（https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports）。

4000法律案例以及摘要的集合。

TIPSTER Text Summarization Evaluation Conference Corpus

（http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html）。

将近200个文档以及摘要的集合。

The AQUAINT Corpus of English News Text

（https://catalog.ldc.upenn.edu/LDC2002T31）。

并非免费，但却被广泛使用。新闻文章的语料库。

更多信息，参见：

Document Understanding Conference (DUC) Tasks

（http://www-nlpir.nist.gov/projects/duc/data.html）

Where can I find good data sets for text summarization?

（https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization）

延伸阅读

如果你想了解更多，这部分提供额外的数据集列表：

Text Datasets Used in Research on Wikipedia

（https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data）

Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?

（https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus）