Hinton 十年前整理的数据集,为什么现在仍是经典?

2020 年 5 月 7 日 中国图象图形学报


内容提要:十一年前由深度学习之父 Hinton 牵头整理的 CIFAR-10 和 CIFAR-100 数据集,被称为图像分类的神级入门数据集。今天我们来全面了解一下。


关键词:CIFAR-10/CIFAR-100 数据集



CIFAR 系列数据集的诞生


CIFAR-10 和 CIFAR-100 数据集发布于 2009 年,由多伦多大学计算机科学系的 Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever 和 Vinod Nair 等人收集。


数据集是以资助该项目的加拿大高级研究所(Canadian Institute for Advanced Research)的名字命名的。


值得一提的是,Alex Krizhevsky 和 Ilya Sutskever 都是 Hinton 的博士,他们在业界也是大佬级人物,是 Hinton 的得意门生。


Alex Krizhevsky 是著名的 Alexnet 一作,而 Ilya Sutskever 是 OpenAI 的联合创始人兼董事。


当时,他们师徒看到被广泛用于图像分类的经典数据集 MNIST 存在几个缺陷:


  • 只有灰度图像; 

  • 类别少、多样性低,只是手写数字; 

  • 并非真实数据,没有真实数据的统计特性。


要将 MNIST 数据集用于评估越来越深的神经网络,当然不太合适,因此需要更大的、真实的、更具多样性的彩色数据集。


于是,Hinton 便带领两位弟子,收集并整理出了 CIFAR-10 和 CIFAR-100 数据集。


2009 年,CIFAR 数据集发布,包括 CIFAR -10 和 CIFAR -100。


这两个数据集里的图片,与 MNIST 数据集比较而言,有以下几个优点:


  • 都是真实图片而不是手稿等;

  • 图中只有一个主体目标;

  • 可以有部分遮挡,但是必须可辨识,这可以成为以后整理数据集的参考。



12 万张真实图像,类别丰富



 CIFAR-10 数据集 


CIFAR-10 数据集共包含 60000 张大小为 32x32 的彩色图像,分为 10 个类别,每个类别 6000 个图像。


CIFAR-10 数据集示例图片


该数据集包含的 10 个类别分别是:airplane(飞机)、automobile(汽车)、bird(鸟)、cat(猫)、deer(鹿)、dog(狗)、frog(青蛙)、horse(马)、ship(船)和 truck(卡车)。


其中,airplane、automobile、ship 和 truck 类都是交通工具类图像,bird、cat、deer、dog、frog 和 horse 都是动物类图,可以认为是两类完全不同的物种,这些都是从语义上完全可以区分的对象。这些类完全相互排斥。


而且,汽车和卡车两种类别之间没有重叠。「汽车」包括轿车,SUV,但不包括卡车或皮卡。「卡车」只包括大卡车,皮卡仍不包括在内。


因此 CIFAR-10 的分类任务可以看作是一个跨物种语义级别的图像分类问题,类间方差大、类内方差小。


此外,我们也可以看出,CIFAR-10 有点类似于类别多样性得到了扩充的 MNIST 的彩色增强版,图像大小差不多,数据集大小也一样,类别也相等。



 CIFAR-100 数据集 


CIFAR-100 数据集与 CIFAR-10 类似,也包含 60000 张大小 32x32 的彩色图像。


不同之处是,它分为 20 个大类(superclass)、100 个子类。每一子类包含 600 张图像,分为 500 张训练图像和 100 张测试图像。


大类之间没有重叠容易区分,但是小类之间会有一定的相似性。


例如,「爬行动物」的大类又被分为「蜥蜴」、「蛇」、「乌龟」、「恐龙」和「鳄鱼」这么五个类别。因此每个图像带有 1 个小类的 fine 标签(精细标签)和 1 个大类的 coarse 标签(粗糙标签),对分类模型会提出比 CIFAR-10 更高的挑战。



以上两个数据集的具体信息如下:


包含数量:

CIFAR-10:6 万张图像
CIFAR-100:6 万张图像


数据大小:

CIFAR-10: 163 MB

CIFAR-100:161 MB


发布时间:

2009 年


包含内容:

图像数据,分类标签


下载地址:

CIFAR -10:

https://hyper.ai/datasets/4926

CIFAR-100:

https://hyper.ai/datasets/4929





所以,还等什么呢,快来下载训练你的模型吧!


参考资料:

http://www.cs.toronto.edu/~kriz/cifar.html


http://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf







专刊征文


技术创新是社会和经济发展的核心驱动力,新冠疫情期间,基于视觉的情感感知技术、医学影像AI技术、自动驾驶技术受到社会的高度关注,如何打破领域技术瓶颈,让科技更好服务于人类,需要学术界和产业界相关研究者的共同探讨。


为探索上述问题,《中国图象图形学报》邀请业内专家共同策划推出“基于视觉的情感感知技术与应用”专刊、“AI+医学影像”专刊、“自动驾驶技术与应用”专刊,欢迎学术界和产业界的一线科研人员踊跃投稿。


JIG“基于视觉的情感感知技术与应用”专刊

JIG“AI+医学影像”专刊征文

JIG“自动驾驶技术与应用”专刊征文





 好文推荐

前沿进展 | 多媒体信号处理的数学理论

中国卫星遥感回首与展望

单目深度估计方法:现状与前瞻

目标跟踪40年,什么才是未来?

10篇CV综述速览计算机视觉新进展

算法集锦|深度学习在遥感图像处理中的六大应用


❂  专家报告

专家推荐|高维数据表示:由稀疏先验到深度模型

专家报告 | AI与影像“术”——医学影像在新冠肺炎中的应用

专家推荐|真假难辨还是虚幻迷离,参与介质图形绘制让人惊叹!

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

专家报告|深度学习+图像多模态融合

专家报告 | 类脑智能与类脑计算


论文写作

Hinton,吴恩达,李飞飞 !大师深度学习课程集锦

羡慕别人中了顶会?做到这些你也可以!

如何阅读一篇文献?

共享 | SAR图像船舶切片数据集


往期目次

《中国图象图形学报》2020年第2期目次

《中国图象图形学报》2020年第1期目次

《中国图象图形学报》2019年第12期目次

《中国图象图形学报》2019年第11期目次


获取方式

本文系《中国图象图形学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发!


编辑:狄   狄

指导:梧桐君

审校:夏薇薇

总编辑:肖   亮



声  明


欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。



齐心抗疫

与你同在

前沿 | 观点 | 资讯 | 独家

电话:010-58887030/7035/7418

网站:www.cjig.cn


在看点这里


登录查看更多
0

相关内容

少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
234+阅读 · 2020年4月29日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
183+阅读 · 2020年2月3日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总
数据挖掘入门与实战
3+阅读 · 2018年1月16日
干货 | 史上最好记的神经网络结构速记表(下)
AI科技评论
7+阅读 · 2017年10月21日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类!
AI科技评论
5+阅读 · 2017年8月4日
用Kaggle经典案例教你用CNN做图像分类!
AI研习社
6+阅读 · 2017年7月23日
Arxiv
22+阅读 · 2019年11月24日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关资讯
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总
数据挖掘入门与实战
3+阅读 · 2018年1月16日
干货 | 史上最好记的神经网络结构速记表(下)
AI科技评论
7+阅读 · 2017年10月21日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类!
AI科技评论
5+阅读 · 2017年8月4日
用Kaggle经典案例教你用CNN做图像分类!
AI研习社
6+阅读 · 2017年7月23日
相关论文
Top
微信扫码咨询专知VIP会员