这里有一份超全面的开源数据集,拿好不谢!

2018 年 10 月 9 日 大数据技术

开源最前线(ID:OpenSourceTop)  编译

链接:skymind.ai


skymind.ai网站上有一份十分全面的开源数据集,涵盖自然图像数据集、面部数据集等多个领域,为方面大家找到自己需要的数据集,将skymind.ai整理的数据集编译如下:



自然图像数据集


MNIST: handwritten digits: 手写数字图集,最常用的完整的检查。数据集格式为25x25,居中,B&W手写数字。这是一项简单的任务 - 仅仅因为某些东西适用于MNIST,并不意味着它全部适用。(项目地址:http://yann.lecun.com/exdb/mnist/


CIFAR10 / CIFAR100: 由10个类的60000个32x32彩色图像组成,每个类有6000个图像。这是一个不常用但是却很有趣的检查。(地址:http://www.cs.utoronto.ca/~kriz/cifar.html


Caltech 101: 加利福尼亚理工学院101类图像数据库(地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/


Caltech 256加利福尼亚理工学院256类图像数据库(地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/


STL-10 dataset:是用于开发无监督特征学习,深度学习,自学习学习算法的图像识别数据集。像CIFAR-10一样有一些修改。(地址:http://cs.stanford.edu/~acoates/stl10/


The Street View House Numbers (SVHN):Google街景的门牌号码。可以把它想象成野外的经常性MNIST。(地址:http://ufldl.stanford.edu/housenumbers/


NORB:此数据库用于从形状进行3D对象重新定位的实验。它包含50种玩具的图像(地址:http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/


Pascal VOC:PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,通用图像分割/分类 - 对于构建真实世界图像注释不是非常有用,但对基线很有用(地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/


Labelme:带注释图像的大型数据集。(地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php


ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。(地址:http://image-net.org/)


LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等)除了训练集,我们还为每个类别提供300张图像进行验证。测试集中的每个类别有1,000个图像。(地址:http://lsun.cs.princeton.edu/2016/


MS COCO:通用图像理解/说明,以及相关的竞赛。(地址:http://mscoco.org/


COIL 20:不同的物体在360度旋转的每个角度成像。(地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php


COIL100:在360度旋转中以各个角度成像的不同对象(地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php


Google’s Open Images:Google公司开放的大型图像标注数据集,包含 900万张图像中 7800种类别内容的标注。(地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html



地理空间数据


OpenStreetMap:OpenStreetMap 是一个世界地图,可依据开放许可协议自由使用,它包含(旧版本)美国人口普查局的数据。(地址:http://wiki.openstreetmap.org/wiki/Planet.osm


Landsat8:整个地球表面的卫星镜头,每隔几周更新一次。(地址:https://landsat.usgs.gov/landsat-8


NEXRAD:美国大气层的多普勒雷达扫描图,能提供反射率和径向速度数据,可用于精确、及时地对强烈天气和水文测量提供警报。(地址: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad



人工数据集


Arcade Universe:一个人工数据集生成器,图像包含街机游戏sprite,如tetris pentomino / tetromino对象。该生成器基于O. Breleux的bugland数据集生成器。

受BabyAISchool创意启发的数据集集合(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool


BabyAIShapesDatasets:区分 3 种简单形状。(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets


BabyAIImageAndQuestionDatasets:一个问题图像答案数据集(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets


DeepVsShallowComparisonICML2007:为深层体系结构的经验评估而生成的数据集(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007


MnistVariations:引入MNIST的受控变化(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations


RectanglesData:区分宽矩形和高矩形(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData


ConvexNonConvex:区分凸图像和非凸图像(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex


BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation



面部数据集


Labelled Faces in the Wild:这是一个面部照片数据库,该数据集包含从网络收集的13,000多张面部图像。每张脸都标有图中人物的名字。图中的1680人在数据集中有两张或更多不同的照片。(地址:http://vis-www.cs.umass.edu/lfw/


UMD Faces:UMDFaces是一个面部数据集,分为两部分:有 8501 个主题的 367,920 个面孔的带注释图像数据集和3100个主题视频的370多万个带注释的视频帧。(地址:http://www.umdfaces.io/


CASIA WebFace :超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤。(地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html


MS-Celeb-1M:100万来自世界各地的名人形象。需要一些过滤才能在深层网络上获得最佳结果。(地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/


Olivetti:MATLAB格式的一些数据集,包含一些人类的不同图像。(地址:http://www.cs.nyu.edu/~roweis/data.html


Multi-Pie:CMU Multi-PIE Face数据库(地址:http://www.multipie.org/

Face-in-Action:该数据库包含来自180名参与者的面部数据的20秒视频,具有成像变化(例如姿势,光照,表情,老化等)的CMU FIA数据(地址:http://www.flintbox.com/public/project/5486/


JACFEE:本和白种人面部情绪表达的图像。(地址:http://www.humintell.com/jacfee/


FERET:面部识别技术数据库(地址:http://www.itl.nist.gov/iad/humanid/feret/feret_master.html


mmifacedb:MMI面部表情数据库(地址:http://www.mmifacedb.com/


耶鲁人脸数据库:(地址:http://vision.ucsd.edu/content/yale-face-database


耶鲁人脸数据库 B:(地址:http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html



视频数据集


Youtube-8M:用于视频理解研究的大型多样化标记视频数据集。(地址:https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html



文本数据集


20 newsgroups:大约20,000个新闻组文档的集合,每个新闻组对应于不同的主题。最初是由Ken Lang收集的(地址:http://qwone.com/~jason/20Newsgroups/


Reuters News dataset:路透社于1987年发布新闻专线,比较旧,常把它用于教程。(地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection


Penn Treebank:用于预测下一个单词或下一个字符(地址:http://www.cis.upenn.edu/~treebank/


UCI’s Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI机器学习库。(地址:https://archive.ics.uci.edu/ml/datasets/Spambase


Broadcast News:大型文本数据集,通常用于预测下一个单词。(地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp


Text Classification Datasets:大型文本数据集,通常用于下一个单词预测。(地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44


WikiText: Salesforce MetaMind 发起的维基百科高质量文章的大型语言建模语料库(地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/


SQuAD:斯坦福问题回答数据集 - 广泛有用的问题回答和阅读理解数据集,其中每个问题的答案都作为一段文本提出。(地址:https://rajpurkar.github.io/SQuAD-explorer/


Billion Words dataset:一种大型通用语言建模数据集。通常用于训练分布式单词表示,如word2vec。(地址:http://www.statmt.org/lm-benchmark/


Common Crawl:网络的PB级抓取 - 最常用于学习单词嵌入。Amazon S3免费提供。也可以用作网络数据集,因为它是从万维网上爬取(地址:http://commoncrawl.org/the-data/


Google Books Ngrams:来自Google图书的连续字符。旨在探索一种简化单词首次被广泛使用的方法。(地址:https://aws.amazon.com/datasets/google-books-ngrams/


Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。(地址:https://www.yelp.com/dataset



问题问答数据集


Maluuba News QA Dataset:CNN 新闻文章中的 12 万个问答数据。(地址:https://datasets.maluuba.com/NewsQA


Quora Question Pairs:来自Quora发布的第一个数据集,包含重复/语义相似性标签。(地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs


CMU Q/A Dataset:手动生成的仿真问答,维基百科对其的难度评分很高。(地址:http://www.cs.cmu.edu/~ark/QA-data/


Maluuba goal-oriented dialogue:程序性对话数据集,其中对话旨在完成任务或做出决定。经常用于聊天机器人。(地址:https://datasets.maluuba.com/Frames


bAbi:来自Facebook AI Research(FAIR)的综合阅读理解和问答数据集(地址:https://research.fb.com/projects/babi/


The Children’s Book Test:通过Project Gutenberg提供的儿童图书中提取的(问题+背景,答案)。用于问答(阅读理解)和仿真查找。(地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz



情绪数据集


Multidomain sentiment analysis dataset:较旧的多领域情绪分析数据集(地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/


IMDB:用于二元情感分类的较旧的,较小的数据集。对文献中的基准测试不再支持更大的数据集。(地址:http://ai.stanford.edu/~amaas/data/sentiment/


Stanford Sentiment Treebank:准情绪数据集,在每个句子的解析树的每个节点上都有细粒度的情感注释。(地址:http://nlp.stanford.edu/sentiment/code.html



推荐和排名系统


Movielens:来自Movielens网站的电影评级数据集,各种类型大小的都有。(地址:https://grouplens.org/datasets/movielens/


Million Song Dataset:Kaggle上的大型,元数据丰富的开源数据集,可以帮助人们尝试使用混合推荐系统。(地址:https://www.kaggle.com/c/msdchallenge


Last.fm:音乐推荐数据集,可访问底层社交网络和其他可用于混合系统的元数据。(地址:http://grouplens.org/datasets/hetrec-2011/


Book-Crossing dataset:来自Book-Crossing社区。包含278,858位用户,提供1,149,780个评分,约271,379本书。(地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/


Jester:来自73,421名用户的100个笑话,连续收视率达到410万(地址 :http://www.ieor.berkeley.edu/~goldberg/jester-data/


Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。(地址:http://www.netflixprize.com/



网络和图形


Amazon Co-Purchasing:亚马逊评论从亚马逊的“购买此产品的用户还购买了......”部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中尝试推荐系统。(地址:http://snap.stanford.edu/data/#amazon


Friendster Social Network Dataset:在变成游戏网站之前,Friendster 以103,750,348 名用户的朋友列表形式发布了匿名数据。(地址:https://archive.org/details/friendster-dataset-201107



语音数据集


2000 HUB5 English:最近在百度的Deep Speech论文中使用的英语语音数据。(地址:https://catalog.ldc.upenn.edu/LDC2002T43


LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。(地址:http://www.openslr.org/12/


VoxForge:带口音的清晰英语语音数据集。适用于希望对不同口音或语调进行提升的人(地址:http://www.voxforge.org/


TIMIT:仅限英语的语音识别数据集。(地址:https://catalog.ldc.upenn.edu/LDC93S1


CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。(地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


TED-LIUM:TED演讲的音频转录。1495个 TED讲述录音以及这些录音的全文转录。(地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus



音符数据集


Piano-midi.de:古典钢琴曲(地址:http://www.piano-midi.de/


Nottingham:超过1000首民歌(地址:http://abc.sourceforge.net/NMD/


MuseData:古典音乐评分的电子图书馆(地址:http://musedata.stanford.edu/


JSB Chorales:四部协奏曲(地址:http://www.jsbchorales.net/index.shtml



数据集


CMU动作捕捉数据库:(地址:http://mocap.cs.cmu.edu/


Brodatz dataset:纹理建模数据库(地址:http://www.ux.uis.no/~tranden/brodatz.html


来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量据。(地址:http://opendata.cern.ch/search


NYC Taxi dataset:由于FOIA请求而获得的纽约出租车数据导致了隐私问题。(地址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml


Uber FOIL dataset:来自Uber FOIL请求的纽约市4.5M拾取数据。(地址:https://github.com/fivethirtyeight/uber-tlc-foil-response


Criteo click stream dataset:来自欧盟重新定位的大型互联网广告数据集。(地址:http://research.criteo.com/outreach/



健康与生物学数据


欧盟传染病监测地图集(地址:http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx


默克分子活动挑战(地址:http://www.kaggle.com/c/MerckActivity/data


Musk dataset:该数据集描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk,且其中一个构造决定了这一特性。(地址:https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)



政府&统计数据


Data USA:最全面的美国可视化公共数据(地址:http://datausa.io/


欧盟性别统计数据库(地址:http://eige.europa.eu/gender-statistics


荷兰国家地质研究数据 (地址:http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within


联合国开发计划署项目(地址:http://open.undp.org/#2016



最近的补充


开源生物识别数据(地址:http://openbiometrics.org/


Google Audioset:扩展了632个音频事件类的本体,以及从YouTube视频中提取的2,084,320个人类标记的10秒声音片段。(地址:https://research.google.com/audioset/


Uber 2B trip data:Uber首次展示 2 百万公里的出行数据。(地址:https://movement.uber.com/cities


Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。(地址:https://www.yelp.com/dataset


Core50:用于连续对象识别的新数据集和基准(地址:https://vlomonaco.github.io/core50/


Kaggle数据集页面(地址:https://www.kaggle.com/datasets


Data Portals(地址:http://dataportals.org/


Open Data Monitor欧洲开放数据集(地址:https://opendatamonitor.eu/frontend/web/index.php


Quandl Data Portal:Quandl是一个数据平台,金融,经济和替代数据集的主要来源,为投资专业人士提供服务。(地址:https://www.quandl.com/


Github 上的公共数据集(地址:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html


头部CT扫描数据集:491次扫描的CQ500数据集(地址:http://headctstudy.qure.ai/



●编号686,输入编号直达本文

●输入m获取文章目录

登录查看更多
0

相关内容

Skymind,创立于 2014 年,总部位于旧金山,是一家商业智能和企业软件公司。Skymind致力于解决一些数据分析和机器智能的问题。 Skymind支持分布式的开源框架 Deeplearning4j.org 和 ND4j.org 分布式系统,如 Hadoop 和 spark,用于储存、处理和快速分析大量的数据。Skymind 的用途包括诈骗检测、时间序列数据、文本分析、可移动网(PORTABLE NETS)、图像/面部识别和语音转文字。官方网站:https://announcement.pathmind.com/skymind-is-now-pathmind/
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
专知会员服务
109+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
20+阅读 · 2019年11月23日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Knowledge Representation Learning: A Quantitative Review
Arxiv
6+阅读 · 2018年4月23日
VIP会员
相关VIP内容
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
专知会员服务
109+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
Top
微信扫码咨询专知VIP会员