Hinton 十年前整理的数据集，为什么现在仍是经典？ - 专知

会员服务 ·

0

Hinton 十年前整理的数据集，为什么现在仍是经典？

2020 年 5 月 7 日 中国图象图形学报

内容提要：十一年前由深度学习之父 Hinton 牵头整理的 CIFAR-10 和 CIFAR-100 数据集，被称为图像分类的神级入门数据集。今天我们来全面了解一下。

关键词：CIFAR-10/CIFAR-100 数据集

CIFAR 系列数据集的诞生

CIFAR-10 和 CIFAR-100 数据集发布于 2009 年，由多伦多大学计算机科学系的 Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever 和 Vinod Nair 等人收集。

数据集是以资助该项目的加拿大高级研究所(Canadian Institute for Advanced Research)的名字命名的。

值得一提的是，Alex Krizhevsky 和 Ilya Sutskever 都是 Hinton 的博士，他们在业界也是大佬级人物，是 Hinton 的得意门生。

Alex Krizhevsky 是著名的 Alexnet 一作，而 Ilya Sutskever 是 OpenAI 的联合创始人兼董事。

当时，他们师徒看到被广泛用于图像分类的经典数据集 MNIST 存在几个缺陷：

只有灰度图像；
类别少、多样性低，只是手写数字；
并非真实数据，没有真实数据的统计特性。

要将 MNIST 数据集用于评估越来越深的神经网络，当然不太合适，因此需要更大的、真实的、更具多样性的彩色数据集。

于是，Hinton 便带领两位弟子，收集并整理出了 CIFAR-10 和 CIFAR-100 数据集。

2009 年，CIFAR 数据集发布，包括 CIFAR -10 和 CIFAR -100。

这两个数据集里的图片，与 MNIST 数据集比较而言，有以下几个优点：

都是真实图片而不是手稿等；
图中只有一个主体目标；
可以有部分遮挡，但是必须可辨识，这可以成为以后整理数据集的参考。

12 万张真实图像，类别丰富

CIFAR-10 数据集

CIFAR-10 数据集共包含 60000 张大小为 32x32 的彩色图像，分为 10 个类别，每个类别 6000 个图像。

CIFAR-10 数据集示例图片

该数据集包含的 10 个类别分别是：airplane（飞机）、automobile（汽车）、bird（鸟）、cat（猫）、deer（鹿）、dog（狗）、frog（青蛙）、horse（马）、ship（船）和 truck（卡车）。

其中，airplane、automobile、ship 和 truck 类都是交通工具类图像，bird、cat、deer、dog、frog 和 horse 都是动物类图，可以认为是两类完全不同的物种，这些都是从语义上完全可以区分的对象。这些类完全相互排斥。

而且，汽车和卡车两种类别之间没有重叠。「汽车」包括轿车，SUV，但不包括卡车或皮卡。「卡车」只包括大卡车，皮卡仍不包括在内。

因此 CIFAR-10 的分类任务可以看作是一个跨物种语义级别的图像分类问题，类间方差大、类内方差小。

此外，我们也可以看出，CIFAR-10 有点类似于类别多样性得到了扩充的 MNIST 的彩色增强版，图像大小差不多，数据集大小也一样，类别也相等。

CIFAR-100 数据集

CIFAR-100 数据集与 CIFAR-10 类似，也包含 60000 张大小 32x32 的彩色图像。

不同之处是，它分为 20 个大类（superclass）、100 个子类。每一子类包含 600 张图像，分为 500 张训练图像和 100 张测试图像。

大类之间没有重叠容易区分，但是小类之间会有一定的相似性。

例如，「爬行动物」的大类又被分为「蜥蜴」、「蛇」、「乌龟」、「恐龙」和「鳄鱼」这么五个类别。因此每个图像带有 1 个小类的 fine 标签（精细标签）和 1 个大类的 coarse 标签（粗糙标签），对分类模型会提出比 CIFAR-10 更高的挑战。

以上两个数据集的具体信息如下：

包含数量：

CIFAR-10：6 万张图像
CIFAR-100：6 万张图像

数据大小：

CIFAR-10： 163 MB

CIFAR-100：161 MB

发布时间：

2009 年

包含内容：

图像数据，分类标签

下载地址：

CIFAR -10：

https://hyper.ai/datasets/4926

CIFAR-100：

https://hyper.ai/datasets/4929

所以，还等什么呢，快来下载训练你的模型吧！

参考资料：

http://www.cs.toronto.edu/~kriz/cifar.html

http://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

专刊征文

技术创新是社会和经济发展的核心驱动力，新冠疫情期间，基于视觉的情感感知技术、医学影像AI技术、自动驾驶技术受到社会的高度关注，如何打破领域技术瓶颈，让科技更好服务于人类，需要学术界和产业界相关研究者的共同探讨。

为探索上述问题，《中国图象图形学报》邀请业内专家共同策划推出“基于视觉的情感感知技术与应用”专刊、“AI+医学影像”专刊、“自动驾驶技术与应用”专刊，欢迎学术界和产业界的一线科研人员踊跃投稿。

JIG“基于视觉的情感感知技术与应用”专刊

JIG“AI+医学影像”专刊征文

JIG“自动驾驶技术与应用”专刊征文

❂ 好文推荐

前沿进展 | 多媒体信号处理的数学理论

中国卫星遥感回首与展望

单目深度估计方法：现状与前瞻

目标跟踪40年，什么才是未来？

10篇CV综述速览计算机视觉新进展

算法集锦|深度学习在遥感图像处理中的六大应用

❂ 专家报告

专家推荐|高维数据表示：由稀疏先验到深度模型

专家报告 | AI与影像“术”——医学影像在新冠肺炎中的应用

专家推荐|真假难辨还是虚幻迷离，参与介质图形绘制让人惊叹！

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

专家报告|深度学习+图像多模态融合

专家报告 | 类脑智能与类脑计算

❂ 论文写作

Hinton，吴恩达，李飞飞！大师深度学习课程集锦

羡慕别人中了顶会？做到这些你也可以！

如何阅读一篇文献？

共享 | SAR图像船舶切片数据集

❂ 往期目次

《中国图象图形学报》2020年第2期目次

《中国图象图形学报》2020年第1期目次

《中国图象图形学报》2019年第12期目次

《中国图象图形学报》2019年第11期目次

获取方式

本文系《中国图象图形学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发！

编辑：狄狄

指导：梧桐君

审校：夏薇薇

总编辑：肖亮

声明

欢迎转发本号原创内容，任何形式的媒体或机构未经授权，不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流，内容为作者观点，不代表本号立场。未经允许，请勿二次转载。如涉及文字、图片等内容、版权和其他问题，请于文章发出20日内联系本号，我们将第一时间处理。《中国图象图形学报》拥有最终解释权。

齐心抗疫

与你同在

前沿 | 观点 | 资讯 | 独家

电话：010-58887030/7035/7418

网站：www.cjig.cn

在看点这里

登录查看更多

0

相关内容

CIFAR-10

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

【经典书】统计学习导论，434页pdf，斯坦福大学

【经典书】统计学习导论，434页pdf，斯坦福大学

专知会员服务

237+阅读 · 2020年4月29日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

普林斯顿大学经典书《在线凸优化导论》，178页pdf

普林斯顿大学经典书《在线凸优化导论》，178页pdf

专知会员服务

185+阅读 · 2020年2月3日

最新！Yann Lecun 纽约大学Spring2020深度学习课程，附PPT下载

最新！Yann Lecun 纽约大学Spring2020深度学习课程，附PPT下载

专知会员服务

20+阅读 · 2020年1月28日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

147+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

97+阅读 · 2019年12月4日

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

专知会员服务

53+阅读 · 2019年12月1日

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

专知会员服务

46+阅读 · 2019年11月4日

干货收藏丨50个史上最佳机器学习公共数据集

干货收藏丨50个史上最佳机器学习公共数据集

七月在线实验室

5+阅读 · 2019年1月20日

最强数据集集合：50个最佳机器学习公共数据集丨资源

最强数据集集合：50个最佳机器学习公共数据集丨资源

深度学习世界

4+阅读 · 2018年11月6日

收藏 | 超全开源数据集，你真的不想要吗？（附链接）

收藏 | 超全开源数据集，你真的不想要吗？（附链接）

THU数据派

3+阅读 · 2018年9月17日

资源 | 一份非常全面的开源数据集

资源 | 一份非常全面的开源数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年9月7日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

数据挖掘入门与实战

3+阅读 · 2018年1月16日

干货 | 史上最好记的神经网络结构速记表（下）

干货 | 史上最好记的神经网络结构速记表（下）

AI科技评论

7+阅读 · 2017年10月21日

资源|各领域公开数据集

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类！

开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类！

AI科技评论

5+阅读 · 2017年8月4日

用Kaggle经典案例教你用CNN做图像分类！

用Kaggle经典案例教你用CNN做图像分类！

AI研习社

6+阅读 · 2017年7月23日

Causality for Machine Learning

Arxiv

25+阅读 · 2019年11月24日

Self-Driving Cars: A Survey

Self-Driving Cars: A Survey

Arxiv

41+阅读 · 2019年1月14日

A Survey of Learning Causality with Data: Problems and Methods

A Survey of Learning Causality with Data: Problems and Methods

Arxiv

19+阅读 · 2018年9月25日

Mobile big data analysis with machine learning

Mobile big data analysis with machine learning

Arxiv

6+阅读 · 2018年8月2日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Deep Learning for Video Classification and Captioning

Arxiv

9+阅读 · 2018年2月22日

Comparative Study of ECO and CFNet Trackers in Noisy Environment

Arxiv

5+阅读 · 2018年1月29日

The Case for Automatic Database Administration using Deep Reinforcement Learning

Arxiv

3+阅读 · 2018年1月17日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员

相关主题

MNIST (数据集)

相关VIP内容

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

【经典书】统计学习导论，434页pdf，斯坦福大学

【经典书】统计学习导论，434页pdf，斯坦福大学

专知会员服务

237+阅读 · 2020年4月29日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

普林斯顿大学经典书《在线凸优化导论》，178页pdf

普林斯顿大学经典书《在线凸优化导论》，178页pdf

专知会员服务

185+阅读 · 2020年2月3日

最新！Yann Lecun 纽约大学Spring2020深度学习课程，附PPT下载

最新！Yann Lecun 纽约大学Spring2020深度学习课程，附PPT下载

专知会员服务

20+阅读 · 2020年1月28日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

147+阅读 · 2019年12月25日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

97+阅读 · 2019年12月4日

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

【深度学习最新、最全综述】从深度学习方法（监督，半监督，无监督，强化学习）到标准化数据集一应俱全，附39页pdf

专知会员服务

53+阅读 · 2019年12月1日

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

专知会员服务

46+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

未来战场：AI赋能无人作战新范式，39页ppt

【牛津博士论文】无限维空间中的广义变分推断

DeepSeek AI 从入门到付费专家·第一卷：动手实践、真实应用与可扩展 AI 解决方案全掌握

2025中国AI Agent商业应用场景洞察研究

相关资讯

干货收藏丨50个史上最佳机器学习公共数据集

干货收藏丨50个史上最佳机器学习公共数据集

七月在线实验室

5+阅读 · 2019年1月20日

最强数据集集合：50个最佳机器学习公共数据集丨资源

最强数据集集合：50个最佳机器学习公共数据集丨资源

深度学习世界

4+阅读 · 2018年11月6日

收藏 | 超全开源数据集，你真的不想要吗？（附链接）

收藏 | 超全开源数据集，你真的不想要吗？（附链接）

THU数据派

3+阅读 · 2018年9月17日

资源 | 一份非常全面的开源数据集

资源 | 一份非常全面的开源数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年9月7日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

数据挖掘入门与实战

3+阅读 · 2018年1月16日

干货 | 史上最好记的神经网络结构速记表（下）

干货 | 史上最好记的神经网络结构速记表（下）

AI科技评论

7+阅读 · 2017年10月21日

资源|各领域公开数据集

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类！

开发 | 用 Kaggle 经典案例教你用 CNN 做图像分类！

AI科技评论

5+阅读 · 2017年8月4日

用Kaggle经典案例教你用CNN做图像分类！

用Kaggle经典案例教你用CNN做图像分类！

AI研习社

6+阅读 · 2017年7月23日

相关论文

Causality for Machine Learning

Arxiv

25+阅读 · 2019年11月24日

Self-Driving Cars: A Survey

Self-Driving Cars: A Survey

Arxiv

41+阅读 · 2019年1月14日

A Survey of Learning Causality with Data: Problems and Methods

A Survey of Learning Causality with Data: Problems and Methods

Arxiv

19+阅读 · 2018年9月25日

Mobile big data analysis with machine learning

Mobile big data analysis with machine learning

Arxiv

6+阅读 · 2018年8月2日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Deep Learning for Video Classification and Captioning

Arxiv

9+阅读 · 2018年2月22日

Comparative Study of ECO and CFNet Trackers in Noisy Environment

Arxiv

5+阅读 · 2018年1月29日

The Case for Automatic Database Administration using Deep Reinforcement Learning

Arxiv

3+阅读 · 2018年1月17日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员