MNIST数据集重生!测试图片增加到6万张,LeCun点赞

2019 年 5 月 30 日 量子位
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

MNIST数据集是图像分类领域的基准测试之一,用于0~9手写数字图像分类任务,包含6万张训练图像和1万张测试图像。它已经有20多年的历史了。

但是官方测试集因为测试集样本太少,MNIST通常被认为不能提供有意义的置信区间。

现在,来自纽约大学两位研究人员给MNIST测试集再增加5万张图片,叫做QMNIST,获得校友、也是MNIST发起者LeCun转发。

LeCun给予了这个数据集很高的评价,认为它“重生、恢复、扩展”了MNIST。

数据集内容

QMNIST扩展数据集包含以下一些文件。

其中,前两个gz压缩文件和标准MNIST数据文件格式相同,不同的是QMNIST包含6万个测试样本。

前10000个QMNIST测试样本与MNIST测试集是逐一匹配的,后50000个示例是根据MNIST用算法重建的数据集。

使用方法

QMNIST的GitHub页上提供了Pytorch平台的QMNIST数据加载器,需要将数据集下载至与pytorch.py相同的文件夹下将网络下载选项设置为download=’True’。

它与标准的Pytorch MNIST数据加载器兼容。

from qmnist import QMNIST

# the qmnist training set, download from the web if not found
qtrain = QMNIST('_qmnist', train=True, download=True)  

# the qmnist testing set, do not download.
qtest = QMNIST('_qmnist', train=False)

# the first 10k of the qmnist testing set with extended labels
# (targets are a torch vector of 8 integers)
qtest10k = QMNIST('_qmnist', what='test10k', compat=False, download='True')

# all the NIST digits with extended labels
qall = QMNIST('_qmnist', what='nist', compat=False)

传送门

数据集地址:
https://github.com/facebookresearch/qmnist

论文地址:
https://arxiv.org/abs/1905.10498


小程序|全类别AI学习教程

AI社群|与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


登录查看更多
1

相关内容

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
已删除
架构文摘
3+阅读 · 2019年4月17日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
相关论文
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员