开源最前线(ID:OpenSourceTop) 编译
链接:skymind.ai
skymind.ai网站上有一份十分全面的开源数据集,涵盖自然图像数据集、面部数据集等多个领域,为方面大家找到自己需要的数据集,将skymind.ai整理的数据集编译如下:
自然图像数据集
MNIST: handwritten digits: 手写数字图集,最常用的完整的检查。数据集格式为25x25,居中,B&W手写数字。这是一项简单的任务 - 仅仅因为某些东西适用于MNIST,并不意味着它全部适用。(项目地址:http://yann.lecun.com/exdb/mnist/)
CIFAR10 / CIFAR100: 由10个类的60000个32x32彩色图像组成,每个类有6000个图像。这是一个不常用但是却很有趣的检查。(地址:http://www.cs.utoronto.ca/~kriz/cifar.html)
Caltech 101: 加利福尼亚理工学院101类图像数据库(地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
Caltech 256:加利福尼亚理工学院256类图像数据库(地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/)
STL-10 dataset:是用于开发无监督特征学习,深度学习,自学习学习算法的图像识别数据集。像CIFAR-10一样有一些修改。(地址:http://cs.stanford.edu/~acoates/stl10/)
The Street View House Numbers (SVHN):Google街景的门牌号码。可以把它想象成野外的经常性MNIST。(地址:http://ufldl.stanford.edu/housenumbers/)
NORB:此数据库用于从形状进行3D对象重新定位的实验。它包含50种玩具的图像(地址:http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
Pascal VOC:PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,通用图像分割/分类 - 对于构建真实世界图像注释不是非常有用,但对基线很有用(地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
Labelme:带注释图像的大型数据集。(地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php)
ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。(地址:http://image-net.org/)
LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等)除了训练集,我们还为每个类别提供300张图像进行验证。测试集中的每个类别有1,000个图像。(地址:http://lsun.cs.princeton.edu/2016/)
MS COCO:通用图像理解/说明,以及相关的竞赛。(地址:http://mscoco.org/)
COIL 20:不同的物体在360度旋转的每个角度成像。(地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
COIL100:在360度旋转中以各个角度成像的不同对象(地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)
Google’s Open Images:Google公司开放的大型图像标注数据集,包含 900万张图像中 7800种类别内容的标注。(地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html)
地理空间数据
OpenStreetMap:OpenStreetMap 是一个世界地图,可依据开放许可协议自由使用,它包含(旧版本)美国人口普查局的数据。(地址:http://wiki.openstreetmap.org/wiki/Planet.osm)
Landsat8:整个地球表面的卫星镜头,每隔几周更新一次。(地址:https://landsat.usgs.gov/landsat-8)
NEXRAD:美国大气层的多普勒雷达扫描图,能提供反射率和径向速度数据,可用于精确、及时地对强烈天气和水文测量提供警报。(地址: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad)
人工数据集
Arcade Universe:一个人工数据集生成器,图像包含街机游戏sprite,如tetris pentomino / tetromino对象。该生成器基于O. Breleux的bugland数据集生成器。
受BabyAISchool创意启发的数据集集合(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool)
BabyAIShapesDatasets:区分 3 种简单形状。(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets)
BabyAIImageAndQuestionDatasets:一个问题图像答案数据集(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets)
DeepVsShallowComparisonICML2007:为深层体系结构的经验评估而生成的数据集(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007)
MnistVariations:引入MNIST的受控变化(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations)
RectanglesData:区分宽矩形和高矩形(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData)
ConvexNonConvex:区分凸图像和非凸图像(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex)
BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制(地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation)
面部数据集
Labelled Faces in the Wild:这是一个面部照片数据库,该数据集包含从网络收集的13,000多张面部图像。每张脸都标有图中人物的名字。图中的1680人在数据集中有两张或更多不同的照片。(地址:http://vis-www.cs.umass.edu/lfw/)
UMD Faces:UMDFaces是一个面部数据集,分为两部分:有 8501 个主题的 367,920 个面孔的带注释图像数据集和3100个主题视频的370多万个带注释的视频帧。(地址:http://www.umdfaces.io/)
CASIA WebFace :超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤。(地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html)
MS-Celeb-1M:100万来自世界各地的名人形象。需要一些过滤才能在深层网络上获得最佳结果。(地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/)
Olivetti:MATLAB格式的一些数据集,包含一些人类的不同图像。(地址:http://www.cs.nyu.edu/~roweis/data.html)
Multi-Pie:CMU Multi-PIE Face数据库(地址:http://www.multipie.org/)
Face-in-Action:该数据库包含来自180名参与者的面部数据的20秒视频,具有成像变化(例如姿势,光照,表情,老化等)的CMU FIA数据(地址:http://www.flintbox.com/public/project/5486/)
JACFEE:本和白种人面部情绪表达的图像。(地址:http://www.humintell.com/jacfee/)
FERET:面部识别技术数据库(地址:http://www.itl.nist.gov/iad/humanid/feret/feret_master.html)
mmifacedb:MMI面部表情数据库(地址:http://www.mmifacedb.com/)
耶鲁人脸数据库:(地址:http://vision.ucsd.edu/content/yale-face-database)
耶鲁人脸数据库 B:(地址:http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html)
视频数据集
Youtube-8M:用于视频理解研究的大型多样化标记视频数据集。(地址:https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html)
文本数据集
20 newsgroups:大约20,000个新闻组文档的集合,每个新闻组对应于不同的主题。最初是由Ken Lang收集的(地址:http://qwone.com/~jason/20Newsgroups/)
Reuters News dataset:路透社于1987年发布新闻专线,比较旧,常把它用于教程。(地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection)
Penn Treebank:用于预测下一个单词或下一个字符(地址:http://www.cis.upenn.edu/~treebank/)
UCI’s Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI机器学习库。(地址:https://archive.ics.uci.edu/ml/datasets/Spambase)
Broadcast News:大型文本数据集,通常用于预测下一个单词。(地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp)
Text Classification Datasets:大型文本数据集,通常用于下一个单词预测。(地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44)
WikiText: Salesforce MetaMind 发起的维基百科高质量文章的大型语言建模语料库(地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/)
SQuAD:斯坦福问题回答数据集 - 广泛有用的问题回答和阅读理解数据集,其中每个问题的答案都作为一段文本提出。(地址:https://rajpurkar.github.io/SQuAD-explorer/)
Billion Words dataset:一种大型通用语言建模数据集。通常用于训练分布式单词表示,如word2vec。(地址:http://www.statmt.org/lm-benchmark/)
Common Crawl:网络的PB级抓取 - 最常用于学习单词嵌入。Amazon S3免费提供。也可以用作网络数据集,因为它是从万维网上爬取(地址:http://commoncrawl.org/the-data/)
Google Books Ngrams:来自Google图书的连续字符。旨在探索一种简化单词首次被广泛使用的方法。(地址:https://aws.amazon.com/datasets/google-books-ngrams/)
Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。(地址:https://www.yelp.com/dataset)
问题问答数据集
Maluuba News QA Dataset:CNN 新闻文章中的 12 万个问答数据。(地址:https://datasets.maluuba.com/NewsQA)
Quora Question Pairs:来自Quora发布的第一个数据集,包含重复/语义相似性标签。(地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs)
CMU Q/A Dataset:手动生成的仿真问答,维基百科对其的难度评分很高。(地址:http://www.cs.cmu.edu/~ark/QA-data/)
Maluuba goal-oriented dialogue:程序性对话数据集,其中对话旨在完成任务或做出决定。经常用于聊天机器人。(地址:https://datasets.maluuba.com/Frames)
bAbi:来自Facebook AI Research(FAIR)的综合阅读理解和问答数据集(地址:https://research.fb.com/projects/babi/)
The Children’s Book Test:通过Project Gutenberg提供的儿童图书中提取的(问题+背景,答案)。用于问答(阅读理解)和仿真查找。(地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz)
情绪数据集
Multidomain sentiment analysis dataset:较旧的多领域情绪分析数据集(地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)
IMDB:用于二元情感分类的较旧的,较小的数据集。对文献中的基准测试不再支持更大的数据集。(地址:http://ai.stanford.edu/~amaas/data/sentiment/)
Stanford Sentiment Treebank:准情绪数据集,在每个句子的解析树的每个节点上都有细粒度的情感注释。(地址:http://nlp.stanford.edu/sentiment/code.html)
推荐和排名系统
Movielens:来自Movielens网站的电影评级数据集,各种类型大小的都有。(地址:https://grouplens.org/datasets/movielens/)
Million Song Dataset:Kaggle上的大型,元数据丰富的开源数据集,可以帮助人们尝试使用混合推荐系统。(地址:https://www.kaggle.com/c/msdchallenge)
Last.fm:音乐推荐数据集,可访问底层社交网络和其他可用于混合系统的元数据。(地址:http://grouplens.org/datasets/hetrec-2011/)
Book-Crossing dataset:来自Book-Crossing社区。包含278,858位用户,提供1,149,780个评分,约271,379本书。(地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/)
Jester:来自73,421名用户的100个笑话,连续收视率达到410万(地址 :http://www.ieor.berkeley.edu/~goldberg/jester-data/)
Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。(地址:http://www.netflixprize.com/)
网络和图形
Amazon Co-Purchasing:亚马逊评论从亚马逊的“购买此产品的用户还购买了......”部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中尝试推荐系统。(地址:http://snap.stanford.edu/data/#amazon)
Friendster Social Network Dataset:在变成游戏网站之前,Friendster 以103,750,348 名用户的朋友列表形式发布了匿名数据。(地址:https://archive.org/details/friendster-dataset-201107)
语音数据集
2000 HUB5 English:最近在百度的Deep Speech论文中使用的英语语音数据。(地址:https://catalog.ldc.upenn.edu/LDC2002T43)
LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。(地址:http://www.openslr.org/12/)
VoxForge:带口音的清晰英语语音数据集。适用于希望对不同口音或语调进行提升的人(地址:http://www.voxforge.org/)
TIMIT:仅限英语的语音识别数据集。(地址:https://catalog.ldc.upenn.edu/LDC93S1)
CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。(地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html)
TED-LIUM:TED演讲的音频转录。1495个 TED讲述录音以及这些录音的全文转录。(地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus)
音符数据集
Piano-midi.de:古典钢琴曲(地址:http://www.piano-midi.de/)
Nottingham:超过1000首民歌(地址:http://abc.sourceforge.net/NMD/)
MuseData:古典音乐评分的电子图书馆(地址:http://musedata.stanford.edu/)
JSB Chorales:四部协奏曲(地址:http://www.jsbchorales.net/index.shtml)
数据集
CMU动作捕捉数据库:(地址:http://mocap.cs.cmu.edu/)
Brodatz dataset:纹理建模数据库(地址:http://www.ux.uis.no/~tranden/brodatz.html)
来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量据。(地址:http://opendata.cern.ch/search)
NYC Taxi dataset:由于FOIA请求而获得的纽约出租车数据导致了隐私问题。(地址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml)
Uber FOIL dataset:来自Uber FOIL请求的纽约市4.5M拾取数据。(地址:https://github.com/fivethirtyeight/uber-tlc-foil-response)
Criteo click stream dataset:来自欧盟重新定位的大型互联网广告数据集。(地址:http://research.criteo.com/outreach/)
健康与生物学数据
欧盟传染病监测地图集(地址:http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx)
默克分子活动挑战(地址:http://www.kaggle.com/c/MerckActivity/data)
Musk dataset:该数据集描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk,且其中一个构造决定了这一特性。(地址:https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2))
政府&统计数据
Data USA:最全面的美国可视化公共数据(地址:http://datausa.io/)
欧盟性别统计数据库(地址:http://eige.europa.eu/gender-statistics)
荷兰国家地质研究数据 (地址:http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within)
联合国开发计划署项目(地址:http://open.undp.org/#2016)
最近的补充
开源生物识别数据(地址:http://openbiometrics.org/)
Google Audioset:扩展了632个音频事件类的本体,以及从YouTube视频中提取的2,084,320个人类标记的10秒声音片段。(地址:https://research.google.com/audioset/)
Uber 2B trip data:Uber首次展示 2 百万公里的出行数据。(地址:https://movement.uber.com/cities)
Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。(地址:https://www.yelp.com/dataset)
Core50:用于连续对象识别的新数据集和基准(地址:https://vlomonaco.github.io/core50/)
Kaggle数据集页面(地址:https://www.kaggle.com/datasets)
Data Portals(地址:http://dataportals.org/)
Open Data Monitor:欧洲开放数据集(地址:https://opendatamonitor.eu/frontend/web/index.php)
Quandl Data Portal:Quandl是一个数据平台,金融,经济和替代数据集的主要来源,为投资专业人士提供服务。(地址:https://www.quandl.com/)
Github 上的公共数据集(地址:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html)
头部CT扫描数据集:491次扫描的CQ500数据集(地址:http://headctstudy.qure.ai/)
●编号3356,输入编号直达本文
●输入m获取文章目录