数据科学家必用的25个深度学习的开放数据集！

2018 年 4 月 7 日 机器学习算法与Python学习

原文：https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/?spm=a2c4e.11153959.blogcont576274.69.16b330274pLaMG

源：全球人工智能

在本文中，我们列出了一些高质量的数据集，每个深度学习爱好者都可以使用并改善改进他们模型的性能。拥有这些数据集将使你成为一名更好的数据科学家，并且你将从中获得无可估量的价值。我们还收录了具有最新技术（SOTA）结果的论文，供你浏览并改进你的模型。

如何使用这些数据集？首先要做的事——下载这些数据集，这些数据集的规模很大！所以请确保你有一个快速的互联网连接。

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

一、图像数据集

1.MNIST

https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST是最受欢迎的深度学习数据集之一，这是一个手写数字数据集，包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库，用于在实际数据中尝试学习技术和深度识别模式，同时可以在数据预处理中花费最少的时间和精力。

大小： 50 MB
记录数量： 70,000张图片被分成了10个组。
SOTA： Capsules之间的动态路由
https://arxiv.org/pdf/1710.09829.pdf

2.MS-COCO

http://cocodataset.org/#home

COCO是一个大型的、丰富的物体检测，分割和字幕数据集。它有几个特点：

对象分割；
在上下文中可识别；
超像素分割；
330K图像（> 200K标记）；
150万个对象实例；
80个对象类别；
91个类别；
每张图片5个字幕；
有关键点的250,000人；
大小：25 GB（压缩）
记录数量： 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。
SOTA：Mask R-CNN：https://arxiv.org/pdf/1703.06870.pdf

3.ImageNet

http://www.image-net.org/

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词，ImageNet平均提供了大约1000个图像来说明每个单词。

大小：150GB
记录数量：总图像是大约是1,500,000，每个都有多个边界框和相应的类标签。
SOTA：深度神经网络的聚合残差变换。
https://arxiv.org/pdf/1611.05431.pdf

4.Open Images数据集

https://github.com/openimages/dataset

该数据集是一个包含近900万个图像URL的数据集，这些图像跨越了数千个类的图像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。

大小：500 GB（压缩）
记录数量：9,011,219张超过5k标签的图像
SOTA：Resnet 101图像分类模型（在V2数据上训练）：模型检查点，检查点自述文件，推理代码。

5.VisualQA

http://www.visualqa.org/

VQA是一个包含相关图像的开放式问题的数据集，这些问题需要理解视野和语言。这个数据集的一些有趣的特点是：

265,016张图片（COCO和抽象场景）；
每张图片至少有3个问题（平均5.4个问题）；
每个问题有10个基本事实答案；
每个问题有3个似乎合理（但可能不正确）的答案；
自动评估指标。
大小：25 GB（压缩）
记录数量：265,016张图片，每张图片至少3个问题，每个问题10个基本事实答案。
SOTA：视觉问答的技巧和诀窍：从2017年的挑战中学习

6.街景房屋号码（SVHN）

http://ufldl.stanford.edu/housenumbers/

这是用于开发对象检测算法的真实世界的图像数据集，它需要最少的数据预处理。它与本列表中提到的MNIST数据集类似，但具有更多标签数据（超过600,000个图像），这些数据是从谷歌街景中查看的房屋号码中收集的。

大小：2.5 GB
记录数量：6,30,420张图片被分布在10个类中。
SOTA：虚拟对抗训练的分布平滑

7.CIFAR-10

http://www.cs.toronto.edu/~kriz/cifar.html

该数据集是图像分类的另一个数据集，它由10个类的60,000个图像组成（每个类在上面的图像中表示为一行）。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分：5个训练批次和1个测试批次，每批有10,000个图像。

大小：170 MB
记录数量：60,000张图片被分为10个类。
SOTA：ShakeDrop正则化

8.Fashion--MNIST

https://github.com/zalandoresearch/fashion-mnist

Fashion-MNIST包含60,000个训练图像和10,000个测试图像，它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。

大小：30 MB。
记录数量：70,000张图片被分为10个类。
SOTA：随机擦除数据增强

二、自然语言处理

9.IMDB评论

http://ai.stanford.edu/~amaas/data/sentiment/

这是电影爱好者的梦幻数据集，它意味着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外，还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

大小：80 MB。
记录数量： 25,000个电影评论训练，25,000个测试
SOTA：学习结构化文本表示

10.二十个新闻组（Twenty Newsgroups）https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义，该数据集包含有关新闻组的信息。为了管理这个数据集，从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有典型特征，如主题行，签名和引号。

大小：20 MB
记录数量：来自20个新闻组的20,000条消息。
SOTA：用于文本分类的非常深的卷积网络，

11.Sentiment140

http://help.sentiment140.com/for-students/

Sentiment140是一个可用于情感分析的数据集。它是一个流行的数据集，它能让你的NLP旅程更加完美。情绪已经从数据中预先删除，最终的数据集具有以下6个特征：

推文的极性（polarity of the tweet）。
推文的ID。
推文的日期。
查询。
推文的文本。
大小：80 MB（压缩）。
记录数量：160,000条推文。
SOTA：评估最先进的情感数据集的最新情绪模型

12.WordNet

https://wordnet.princeton.edu/

在上面的ImageNet数据集中提到，WordNet是一个包含英文synsets的大型数据库。Synsets是同义词组，每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。

大小：10 MB
记录数量：通过少量“概念关系”将117,000个同义词集与其他同义词集相关联。
SOTA：Wordnet：现状和前景

13.Yelp评论

https://www.yelp.com/dataset

这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论，商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部压缩）
记录数：5,200,000条评论，174,000条商业属性，20万张照片。
SOTA：细心卷积(Attentive Convolution)

14.维基百科语料库

http://nlp.cs.nyu.edu/wikipedia-data/

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。这个强大的NLP数据集你可以通过单词，短语或段落本身的一部分进行搜索。

大小：20 MB。
记录数：4,400,000篇文章，19亿字。
SOTA：打破Softmax Bottelneck：高级RNN语言模型

15.博客作者身份语料库

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

此数据集包含从数千名博主收集的博客帖子，并且已从blogger.com收集。每个博客都作为一个单独的文件提供，每个博客至少包含200次常用英语单词。

大小：300 MB
记录数：681,288个帖子，超过1.4亿字。
SOTA：用于大规模作者归属的字符级和多通道卷积神经网络

16.欧洲语言的机器翻译数据集

http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据，它存在的任务是改进当前的翻译方法。你训练以下任何语言对：

法语——英语；
西班牙语——英语；
德语——英语；
捷克语——英语。
大小：15 GB
记录数量：约30,000,000个句子及其翻译。
SOTA：Attention就是你所需要的

三、音频/语音数据集

17.免费口语数字数据集

https://github.com/Jakobovski/free-spoken-digit-dataset

此列表中的另一项是由MNIST数据集启发！这是为了解决识别音频样本中的口头数字的任务而创建的。这是一个开放的数据集，所以希望随着人们继续贡献更多样本，它会不断增长。目前，它包含以下特点：

3个扬声器；
1500个录音（每个扬声器每个数字50个）；
英语发音；
大小：10 MB。
记录数量：1500个音频样本。
SOTA：使用采样级CNN架构的基于原始波形的音频分类

18.免费音乐档案（FMA）

https://github.com/mdeff/fma

FMA是音乐分析的数据集，该数据集由full-length和HQ音频、预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集，用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表：

tracks.csv：106,574首曲目的每首曲目元数据，如ID，标题，艺术家，流派，标签和播放次数。
genres.csv：163种风格的ID与他们的名字和父母（用于推断流派层次和顶级流派）。
features.csv：用librosa提取的共同特征。
echonest.csv：由Echonest （现在的 Spotify）为13,129首音轨的子集提供的音频功能。
大小：1000 GB
记录数量：约100,000 tracks
SOTA：学习从音频中识别音乐风格

19.舞厅（Ballroom）：http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

该数据集包含舞厅跳舞音频文件，以真实音频格式提供了许多舞蹈风格的一些特征摘录。以下是数据集的一些特征：

实例总数：698；
持续时间：约30秒；
总持续时间：约20940秒；
大小： 14GB（压缩）
记录数量：约700个音频样本
SOTA：考虑到不同类型音乐风格的多模型方法来打败追踪

20.百万歌曲数据集

https://labrosa.ee.columbia.edu/millionsong/

在百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。其目的是：

鼓励对扩大到商业规模的算法进行研究；
为评估研究提供参考数据集；
作为使用API创建大型数据集的捷径（例如Echo Nest的）；
帮助新研究人员在MIR领域开始工作；
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频，只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从7digital等服务中获取。
大小： 280 GB
记录数量：一百万首歌曲！
SOTA：百万歌曲数据集挑战推荐系统的初步研究

21.LibriSpeech

http://www.openslr.org/12/

该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在kaldi-asr.org和语言模型上进行了训练，适合评估，网址为：http://www.openslr.org/11/。