这里有一份超全面的开源数据集，拿好不谢！

2018 年 10 月 9 日 大数据技术

开源最前线（ID：OpenSourceTop）编译

链接：skymind.ai

skymind.ai网站上有一份十分全面的开源数据集，涵盖自然图像数据集、面部数据集等多个领域，为方面大家找到自己需要的数据集，将skymind.ai整理的数据集编译如下：

自然图像数据集

MNIST: handwritten digits： 手写数字图集，最常用的完整的检查。数据集格式为25x25，居中，B＆W手写数字。这是一项简单的任务 - 仅仅因为某些东西适用于MNIST，并不意味着它全部适用。（项目地址：http://yann.lecun.com/exdb/mnist/）

CIFAR10 / CIFAR100: 由10个类的60000个32x32彩色图像组成，每个类有6000个图像。这是一个不常用但是却很有趣的检查。（地址：http://www.cs.utoronto.ca/~kriz/cifar.html）

Caltech 101: 加利福尼亚理工学院101类图像数据库（地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/）

Caltech 256：加利福尼亚理工学院256类图像数据库（地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/）

STL-10 dataset：是用于开发无监督特征学习，深度学习，自学习学习算法的图像识别数据集。像CIFAR-10一样有一些修改。（地址：http://cs.stanford.edu/~acoates/stl10/）

The Street View House Numbers (SVHN)：Google街景的门牌号码。可以把它想象成野外的经常性MNIST。（地址：http://ufldl.stanford.edu/housenumbers/）

NORB：此数据库用于从形状进行3D对象重新定位的实验。它包含50种玩具的图像（地址：http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/）

Pascal VOC：PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，通用图像分割/分类 - 对于构建真实世界图像注释不是非常有用，但对基线很有用（地址：http://pascallin.ecs.soton.ac.uk/challenges/VOC/）

Labelme：带注释图像的大型数据集。（地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php）

ImageNet：新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签，这些标签近 1000 类;WordNet; ImageNet 的层次结构。（地址：http://image-net.org/）

LSUN：具有很多辅助任务的场景理解(房间布局估计，显著性预测(saliency prediction)等)除了训练集，我们还为每个类别提供300张图像进行验证。测试集中的每个类别有1,000个图像。（地址：http://lsun.cs.princeton.edu/2016/）

MS COCO：通用图像理解/说明，以及相关的竞赛。（地址：http://mscoco.org/）

COIL 20：不同的物体在360度旋转的每个角度成像。（地址：http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php）

COIL100：在360度旋转中以各个角度成像的不同对象（地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php）

Google’s Open Images：Google公司开放的大型图像标注数据集，包含 900万张图像中 7800种类别内容的标注。（地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html）

地理空间数据

OpenStreetMap：OpenStreetMap 是一个世界地图，可依据开放许可协议自由使用，它包含（旧版本）美国人口普查局的数据。（地址：http://wiki.openstreetmap.org/wiki/Planet.osm）

Landsat8：整个地球表面的卫星镜头，每隔几周更新一次。（地址：https://landsat.usgs.gov/landsat-8）

NEXRAD：美国大气层的多普勒雷达扫描图，能提供反射率和径向速度数据，可用于精确、及时地对强烈天气和水文测量提供警报。（地址： https://www.ncdc.noaa.gov/data-access/radar-data/nexrad）

人工数据集

Arcade Universe：一个人工数据集生成器，图像包含街机游戏sprite，如tetris pentomino / tetromino对象。该生成器基于O. Breleux的bugland数据集生成器。

受BabyAISchool创意启发的数据集集合（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool）

BabyAIShapesDatasets：区分 3 种简单形状。（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets）

BabyAIImageAndQuestionDatasets：一个问题图像答案数据集（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets）

DeepVsShallowComparisonICML2007：为深层体系结构的经验评估而生成的数据集（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007）

MnistVariations：引入MNIST的受控变化（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations）

RectanglesData：区分宽矩形和高矩形（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData）

ConvexNonConvex：区分凸图像和非凸图像（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex）

BackgroundCorrelation：嘈杂 MNIST 背景下相关度的控制（地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation）

面部数据集

Labelled Faces in the Wild：这是一个面部照片数据库，该数据集包含从网络收集的13,000多张面部图像。每张脸都标有图中人物的名字。图中的1680人在数据集中有两张或更多不同的照片。（地址：http://vis-www.cs.umass.edu/lfw/）

UMD Faces:UMDFaces是一个面部数据集，分为两部分：有 8501 个主题的 367，920 个面孔的带注释图像数据集和3100个主题视频的370多万个带注释的视频帧。（地址：http://www.umdfaces.io/）

CASIA WebFace ：超过 10，575 个人经面部检测的 453，453 张图像的面部数据集。需要一些质量过滤。（地址：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html）

MS-Celeb-1M：100万来自世界各地的名人形象。需要一些过滤才能在深层网络上获得最佳结果。（地址：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/）

Olivetti：MATLAB格式的一些数据集，包含一些人类的不同图像。（地址：http://www.cs.nyu.edu/~roweis/data.html）

Multi-Pie：CMU Multi-PIE Face数据库（地址：http://www.multipie.org/）

Face-in-Action：该数据库包含来自180名参与者的面部数据的20秒视频，具有成像变化（例如姿势，光照，表情，老化等）的CMU FIA数据（地址：http://www.flintbox.com/public/project/5486/）

JACFEE：本和白种人面部情绪表达的图像。（地址：http://www.humintell.com/jacfee/）

FERET：面部识别技术数据库（地址：http://www.itl.nist.gov/iad/humanid/feret/feret_master.html）

mmifacedb：MMI面部表情数据库（地址：http://www.mmifacedb.com/）

耶鲁人脸数据库：（地址：http://vision.ucsd.edu/content/yale-face-database）

耶鲁人脸数据库 B：（地址：http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html）

视频数据集

Youtube-8M：用于视频理解研究的大型多样化标记视频数据集。（地址：https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html）

文本数据集

20 newsgroups：大约20,000个新闻组文档的集合，每个新闻组对应于不同的主题。最初是由Ken Lang收集的（地址：http://qwone.com/~jason/20Newsgroups/）

Reuters News dataset：路透社于1987年发布新闻专线，比较旧，常把它用于教程。（地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection）

Penn Treebank：用于预测下一个单词或下一个字符（地址：http://www.cis.upenn.edu/~treebank/）

UCI’s Spambase：这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI机器学习库。（地址：https://archive.ics.uci.edu/ml/datasets/Spambase）

Broadcast News：大型文本数据集，通常用于预测下一个单词。（地址：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp）

Text Classification Datasets：大型文本数据集，通常用于下一个单词预测。（地址：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44）

WikiText： Salesforce MetaMind 发起的维基百科高质量文章的大型语言建模语料库（地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/）

SQuAD：斯坦福问题回答数据集 - 广泛有用的问题回答和阅读理解数据集，其中每个问题的答案都作为一段文本提出。（地址：https://rajpurkar.github.io/SQuAD-explorer/）

Billion Words dataset：一种大型通用语言建模数据集。通常用于训练分布式单词表示，如word2vec。（地址：http://www.statmt.org/lm-benchmark/）

Common Crawl：网络的PB级抓取 - 最常用于学习单词嵌入。Amazon S3免费提供。也可以用作网络数据集，因为它是从万维网上爬取（地址：http://commoncrawl.org/the-data/）

Google Books Ngrams：来自Google图书的连续字符。旨在探索一种简化单词首次被广泛使用的方法。（地址：https://aws.amazon.com/datasets/google-books-ngrams/）

Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。（地址：https://www.yelp.com/dataset）

问题问答数据集

Maluuba News QA Dataset：CNN 新闻文章中的 12 万个问答数据。（地址：https://datasets.maluuba.com/NewsQA）

Quora Question Pairs：来自Quora发布的第一个数据集，包含重复/语义相似性标签。（地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs）

CMU Q/A Dataset：手动生成的仿真问答，维基百科对其的难度评分很高。（地址：http://www.cs.cmu.edu/~ark/QA-data/）

Maluuba goal-oriented dialogue：程序性对话数据集，其中对话旨在完成任务或做出决定。经常用于聊天机器人。（地址：https://datasets.maluuba.com/Frames）

bAbi：来自Facebook AI Research（FAIR）的综合阅读理解和问答数据集（地址：https://research.fb.com/projects/babi/）

The Children’s Book Test：通过Project Gutenberg提供的儿童图书中提取的（问题+背景，答案）。用于问答（阅读理解）和仿真查找。（地址：http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz）

情绪数据集

Multidomain sentiment analysis dataset：较旧的多领域情绪分析数据集（地址：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/）

IMDB：用于二元情感分类的较旧的，较小的数据集。对文献中的基准测试不再支持更大的数据集。（地址：http://ai.stanford.edu/~amaas/data/sentiment/）

Stanford Sentiment Treebank：准情绪数据集，在每个句子的解析树的每个节点上都有细粒度的情感注释。（地址：http://nlp.stanford.edu/sentiment/code.html）

推荐和排名系统

Movielens：来自Movielens网站的电影评级数据集，各种类型大小的都有。（地址：https://grouplens.org/datasets/movielens/）

Million Song Dataset：Kaggle上的大型，元数据丰富的开源数据集，可以帮助人们尝试使用混合推荐系统。（地址：https://www.kaggle.com/c/msdchallenge）

Last.fm：音乐推荐数据集，可访问底层社交网络和其他可用于混合系统的元数据。（地址：http://grouplens.org/datasets/hetrec-2011/）

Book-Crossing dataset：来自Book-Crossing社区。包含278,858位用户，提供1,149,780个评分，约271,379本书。（地址：http://www.informatik.uni-freiburg.de/~cziegler/BX/）

Jester：来自73,421名用户的100个笑话，连续收视率达到410万（地址：http://www.ieor.berkeley.edu/~goldberg/jester-data/）

Netflix Prize：Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现，只能提供非正式版。（地址：http://www.netflixprize.com/）

网络和图形

Amazon Co-Purchasing：亚马逊评论从亚马逊的“购买此产品的用户还购买了......”部分抓取数据，以及亚马逊相关产品的评论数据。适合在网络中尝试推荐系统。（地址：http://snap.stanford.edu/data/#amazon）

Friendster Social Network Dataset：在变成游戏网站之前，Friendster 以103,750,348 名用户的朋友列表形式发布了匿名数据。（地址：https://archive.org/details/friendster-dataset-201107）

语音数据集

2000 HUB5 English：最近在百度的Deep Speech论文中使用的英语语音数据。（地址：https://catalog.ldc.upenn.edu/LDC2002T43）

LibriSpeech：包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成，包含带有文本和语音的章节。（地址：http://www.openslr.org/12/）

VoxForge：带口音的清晰英语语音数据集。适用于希望对不同口音或语调进行提升的人（地址：http://www.voxforge.org/）

TIMIT：仅限英语的语音识别数据集。（地址：https://catalog.ldc.upenn.edu/LDC93S1）

CHIME：嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成，仿真录音由多个语音环境和清晰的无噪声录音结合而成。（地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html）

TED-LIUM：TED演讲的音频转录。1495个 TED讲述录音以及这些录音的全文转录。（地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus）

音符数据集

Piano-midi.de：古典钢琴曲（地址：http://www.piano-midi.de/）

Nottingham：超过1000首民歌（地址：http://abc.sourceforge.net/NMD/）

MuseData：古典音乐评分的电子图书馆（地址：http://musedata.stanford.edu/）

JSB Chorales：四部协奏曲（地址：http://www.jsbchorales.net/index.shtml）

数据集

CMU动作捕捉数据库：（地址：http://mocap.cs.cmu.edu/）

Brodatz dataset：纹理建模数据库（地址：http://www.ux.uis.no/~tranden/brodatz.html）

来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量据。（地址：http://opendata.cern.ch/search）

NYC Taxi dataset：由于FOIA请求而获得的纽约出租车数据导致了隐私问题。（地址：http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml）

Uber FOIL dataset：来自Uber FOIL请求的纽约市4.5M拾取数据。（地址：https://github.com/fivethirtyeight/uber-tlc-foil-response）

Criteo click stream dataset：来自欧盟重新定位的大型互联网广告数据集。（地址：http://research.criteo.com/outreach/）

健康与生物学数据

欧盟传染病监测地图集（地址：http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx）

默克分子活动挑战（地址：http://www.kaggle.com/c/MerckActivity/data）

Musk dataset：该数据集描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk，且其中一个构造决定了这一特性。（地址：https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)）

政府&统计数据

Data USA：最全面的美国可视化公共数据（地址：http://datausa.io/）

欧盟性别统计数据库（地址：http://eige.europa.eu/gender-statistics）

荷兰国家地质研究数据 （地址：http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within）

联合国开发计划署项目（地址：http://open.undp.org/#2016）

最近的补充

开源生物识别数据（地址：http://openbiometrics.org/）

Google Audioset：扩展了632个音频事件类的本体，以及从YouTube视频中提取的2,084,320个人类标记的10秒声音片段。（地址：https://research.google.com/audioset/）

Uber 2B trip data：Uber首次展示 2 百万公里的出行数据。（地址：https://movement.uber.com/cities）

Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。（地址：https://www.yelp.com/dataset）

Core50：用于连续对象识别的新数据集和基准（地址：https://vlomonaco.github.io/core50/）

Kaggle数据集页面（地址：https://www.kaggle.com/datasets）

Data Portals（地址：http://dataportals.org/）

Open Data Monitor：欧洲开放数据集（地址：https://opendatamonitor.eu/frontend/web/index.php）

Quandl Data Portal：Quandl是一个数据平台，金融，经济和替代数据集的主要来源，为投资专业人士提供服务。（地址：https://www.quandl.com/）

Github 上的公共数据集（地址：https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html）

头部CT扫描数据集：491次扫描的CQ500数据集（地址：http://headctstudy.qure.ai/）

●编号686，输入编号直达本文

●输入m获取文章目录

登录查看更多

相关内容

skymind

关注 0

Skymind，创立于 2014 年，总部位于旧金山，是一家商业智能和企业软件公司。Skymind致力于解决一些数据分析和机器智能的问题。 Skymind支持分布式的开源框架 Deeplearning4j.org 和 ND4j.org 分布式系统，如 Hadoop 和 spark，用于储存、处理和快速分析大量的数据。Skymind 的用途包括诈骗检测、时间序列数据、文本分析、可移动网（PORTABLE NETS)、图像/面部识别和语音转文字。官方网站：https://announcement.pathmind.com/skymind-is-now-pathmind/

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日