上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MNIST。
随后我们发现这个数据集引发了好多研究人员的关注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推荐了这个数据集,也引发了很多的讨论。
更令我们意外的是,量子位周日收到了Fashion-MNIST数据集作者的来信,而且是一封中文来信!嗯,就是那种阅读起来毫无压力的纯正简体中文~
直到这个时候,我们才意识到这个最近非常火的数据集,虽然出自一家德国公司,但是主要的作者是一位华人:肖涵(Han Xiao)。
“这个项目是为机器学习人工智能领域提供一个更有挑战性、更有趣的MNIST替代数据集”,肖涵博士再次谈到这个项目的意义。
对于这个数据集的表现,他提到:“我也收到了很多国内AI研究员良好的使用体验,他们表示在MNIST上区分不开的算法(0.1%之差)可以在Fashion-MNIST上很好的区分开来。”
最重要的是,肖涵博士告诉量子位,他已经在GitHub上为这个数据集增加了中文文档(README.zh-CN.md)。本文最后,量子位也会摘录部分其中的内容。另外,通过这个地址即可前往访问Fashion-MNIST数据集的更多详情:
github.com/zalandoresearch/fashion-mnist
关于肖涵博士,量子位也简单的查询了一下相关背景。他目前是德国公司Zalando旗下研究院NLP组的高级研究科学家。肖涵在慕尼黑工业大学获得硕士及博士学位,此前本科毕业于北京邮电大学。(下面放一张真人秀)
最后,我们摘录Fashion-MNIST的中文文档部分内容如下。
FashionMNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。
这个数据集的样子大致如下(每个类别占三行):
经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:”如果一个算法在MNIST不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其他数据上也可能不work!”
Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST的图片大小,训练、测试样本数及类别数与经典MNIST完全相同。
我们是认真的。取代MNIST数据集的原因由如下几个:
MNIST太简单了,很多算法在测试集上的性能已经达到99.6%!不妨看看我们基于scikit-learn上对经典机器学习算法的评测 和这段代码: “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”(翻译:大多数MNIST只需要一个像素就可以区分开!)
MNIST被用烂了。参考:”Ian Goodfellow wants people to move away from mnist”(翻译:Ian Goodfellow希望人们不要再用MNIST了。)
MNIST数字识别的任务不代表现代机器学习。参考:”François Cholle: Ideas on MNIST do not transfer to real CV” (翻译:在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。)
文档中还详尽描述了数据获取、类别标注、如何载入数据、评测等信息,另外作者还建立了一个讨论的聊天室。
目前相关论文已经在arXiv上发表,地址在此:
https://arxiv.org/abs/1708.07747
在量子位微信公众号(QbitAI)后台回复:“XH”两个字母,也可以获得我们放在网盘上的下载地址,就酱~
— 完 —
加入社群
量子位AI社群7群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot2入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot2,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI
վ'ᴗ' ի 追踪AI技术和产品新动态