连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

2017 年 8 月 28 日 量子位 专注报道AI
允中 发自 凹非寺
量子位 报道 | 公众号 QbitAI

上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MNIST。

随后我们发现这个数据集引发了好多研究人员的关注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推荐了这个数据集,也引发了很多的讨论。

更令我们意外的是,量子位周日收到了Fashion-MNIST数据集作者的来信,而且是一封中文来信!嗯,就是那种阅读起来毫无压力的纯正简体中文~

直到这个时候,我们才意识到这个最近非常火的数据集,虽然出自一家德国公司,但是主要的作者是一位华人:肖涵(Han Xiao)。

“这个项目是为机器学习人工智能领域提供一个更有挑战性、更有趣的MNIST替代数据集”,肖涵博士再次谈到这个项目的意义。

对于这个数据集的表现,他提到:“我也收到了很多国内AI研究员良好的使用体验,他们表示在MNIST上区分不开的算法(0.1%之差)可以在Fashion-MNIST上很好的区分开来。”

最重要的是,肖涵博士告诉量子位,他已经在GitHub上为这个数据集增加了中文文档(README.zh-CN.md)。本文最后,量子位也会摘录部分其中的内容。另外,通过这个地址即可前往访问Fashion-MNIST数据集的更多详情:

github.com/zalandoresearch/fashion-mnist

关于肖涵博士,量子位也简单的查询了一下相关背景。他目前是德国公司Zalando旗下研究院NLP组的高级研究科学家。肖涵在慕尼黑工业大学获得硕士及博士学位,此前本科毕业于北京邮电大学。(下面放一张真人秀)

 肖涵博士

最后,我们摘录Fashion-MNIST的中文文档部分内容如下。

FashionMNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

这个数据集的样子大致如下(每个类别占三行):

为什么要做这个数据集?

经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:”如果一个算法在MNIST不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其他数据上也可能不work!”

Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST的图片大小,训练、测试样本数及类别数与经典MNIST完全相同。

写给专业的机器学习研究者

我们是认真的。取代MNIST数据集的原因由如下几个:

MNIST太简单了,很多算法在测试集上的性能已经达到99.6%!不妨看看我们基于scikit-learn上对经典机器学习算法的评测 和这段代码: “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”(翻译:大多数MNIST只需要一个像素就可以区分开!)

MNIST被用烂了。参考:”Ian Goodfellow wants people to move away from mnist”(翻译:Ian Goodfellow希望人们不要再用MNIST了。)

MNIST数字识别的任务不代表现代机器学习。参考:”François Cholle: Ideas on MNIST do not transfer to real CV” (翻译:在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。)

其他

文档中还详尽描述了数据获取、类别标注、如何载入数据、评测等信息,另外作者还建立了一个讨论的聊天室。

目前相关论文已经在arXiv上发表,地址在此:

https://arxiv.org/abs/1708.07747

在量子位微信公众号(QbitAI)后台回复:“XH”两个字母,也可以获得我们放在网盘上的下载地址,就酱~

加入社群

量子位AI社群7群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot2入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot2,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
0

相关内容

FashionMNIST 是一个替代 MNIST 手写数字集的图像数据集。 它是由 Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。FashionMNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分,28x28 的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。
还在修改博士论文?这份《博士论文写作技巧》为你指南
斯坦福2020硬课《分布式算法与优化》
专知会员服务
117+阅读 · 2020年5月6日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
65+阅读 · 2020年2月29日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
深度学习之路——论文阅读
专知
11+阅读 · 2018年9月29日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
3+阅读 · 2019年9月5日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年4月10日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员