成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
全球最大的图像识别数据库ImageNet不行了?谷歌DeepMind新方法提升精度
2020 年 6 月 24 日
新智元
新智元原创
编辑:
元子
【新智元导读】
来自苏黎世谷歌大脑和DeepMind London的研究人员认为,世界上最受欢迎的图像数据库之一ImageNet需要改造。ImageNet是一个无与伦比的计算机视觉数据集,拥有超过1400万张标记图像。它是为对象识别研究而设计的,并按照WordNet的层次结构进行组织。层次结构的每个节点都由成百上千的图像描述,目前每个节点平均有超过500个图像。
将时间倒回15年前,2005年,还是一个被算法统治的年代。
刚刚拿到加州理工电子工程学博士学位,到伊利诺伊州香槟分校担任教职的李飞飞敏锐的发现了「算法为王」的局限性,开始研究算法的基石:数据集。
此后,全世界最大的图像识别数据集「ImageNet」诞生。
ImageNet的出现,伴随着一个非常宏大的野心。完整版ImageNet拥有超过1400多万幅图片,涉及2万多个类别标注,超百万边界标注。
2010年到2017年期间,围绕ImageNet共举办了8届 Large Scale Visual Recognition Challenge,包括图像分类,目标检测,目标定位单元。
2017年,挑战赛完结。
八年来,参赛选手将算法正确识别率从71.8%提升到97.3%,这样的精度甚至已经将我们人类自己都远远的甩在后面。
同时,也证明了数据集越大、效果越好。
近十年来,ImageNet一直是人工感知研究的核心测试平台,它的规模和难度凸显了机器学习领域的里程碑式成就。
但Google和DeepMind的科学家却认为,已有的ImageNet有些落伍了。他们发现,原始的ImageNet标签不再是新标注的最佳预测者,已经被最近的高绩效模型系统性地超越了。
ImageNet标签出了哪些问题?
每幅图像只有单一标签
现实世界中的图像通常包含很多标签,但是ImageNet对每幅图像只分配了一个标签,这就导致图像内容的严重表达不足。比如下图第一行,每幅图只标记了一个物体,图中很多物体都被遗漏了。
标签建议限制性过强
ImageNet注释流程是在互联网上查询制定类的图像,然后询问人工评审员该类是否确实存在于当前图像中。
虽然这个过程会产生合理的图像描述,但也会导致不准确的情况。当单独考虑时,一个特定的标签建议,看起来可能是对图像的合理描述;然而当与其他ImageNet类一起考虑时,这种描述马上就显得不那么合适了。
比如上图中间一行第二个更准确的标注应该是「水瓶」,然而从单张图片来看,你说它是水桶也说得过去。最后一个其实是「校车」,但校车上的人,不论是学生还是老师,也都是passenger呀。
分类时的消歧义
例如最下一行中间,laptop的分类虽然是没错,但却忽略了notebook、Computor也同样可以指代同一个对象。如果我们能够将这些标签都用上,显然可以更精准的描述一个物体。
新方法如何改进ImageNet的缺陷
知道了症结所在,接下来就对症下药了。
考虑到孤立地分配一个标签所产生的偏差,Google和DeepMind的研究团队设计了一个标签程序,它能捕获ImageNet数据集中内容的多样性和多重性。
并寻求一种范式,允许人类注释者同时评估一组不同的候选标签,又能保持proposal的数量足够小,以实现稳健的注释。
在模型子集上进行穷尽式搜索,以找到一组能达到最高精度,同时保持97%以上的召回率的模型子集。
在此基础上,科学家找到了一个6个模型的子集,它生成的标签proposal具有97.1%的召回率和28.3%的精度,将每个图像的平均proposal标签数从13个降低到7.4个。从这个子集中,使用上述相同的规则,为整个验证集生成proposal标签。
在获得了整个验证集的新的候选标签集后,首先评估哪些图像需要由人工进行评估。
在所有模型都与原始ImageNet标签一致的情况下,就可以安全地保留原始标签而不需要人工重新评估,这样就将需要标注的图像数量就从50000张减少到24889张。
进一步根据WordNet的层次结构,将超过8个标签建议的图像分成多个标签任务。这就导致了37988个标签任务。
使用众包平台,将每个任务分配给5个独立的真人工标注者执行。
实验效果
下图是在ImageNet上,由Google和DeepMind科学家提出的sigmoid loss和clean label set的Top-1精度(百分比)。
可以看出,无论是sigmoid loss还是clean label set都比Benchmark优秀,而同时使用这两种方法获得了最好的性能。
新方法在较长的训练计划下,其改进更为明显。
但是在存在噪声数据的情况下,较长的训练计划可能是有害的,科学加期望清洗 ImageNet 训练集(或使用 sigmoid 损失)能在这种情况下产生额外的好处。
在后续的实验中,科学家发现ReaL标签可以更正超过一半的ImageNet标签错误,这意味着ReaL标签提供了对模型准确性的更优越估计。
论文地址:
https://arxiv.org/pdf/2006.07159.pdf
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
ImageNet (数据集)
关注
21
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别; [2]一个典型的类别,如“气球”或“草莓”,包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是,实际的图像不属于ImageNet。自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是2010年的深度学习革命的开始。
【普林斯顿】持续视角下的机器学习,31页ppt及视频
专知会员服务
23+阅读 · 2020年8月19日
【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究
专知会员服务
144+阅读 · 2020年7月26日
【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
39+阅读 · 2020年7月26日
【Hinton新论文】SimCLRv2来了!提出蒸馏新思路,可迁移至小模型,性能精度超越有监督
专知会员服务
40+阅读 · 2020年7月21日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【普渡大学】提升GNN表达能力的集体学习框架,Boost GNN Expressiveness
专知会员服务
45+阅读 · 2020年3月30日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
重磅!Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%
专知会员服务
31+阅读 · 2020年2月15日
【论文】自训练噪声student模型提高ImageNet分类准确率(Self-training with Noisy Student improves ImageNet classification),谷歌研究科学家Quoc V. Le等
专知会员服务
23+阅读 · 2019年11月20日
【学界】何恺明团队新作ResNext:Instagram图片预训练,挑战ImageNet新精度
GAN生成式对抗网络
4+阅读 · 2019年6月26日
谷歌开源新模型EfficientNet:图像识别效率提升10倍,参数减少88%
AI前线
15+阅读 · 2019年6月9日
10亿级数据规模的半监督图像分类模型,Imagenet测试精度高达81.2% | 技术头条
AI100
7+阅读 · 2019年5月7日
已删除
将门创投
8+阅读 · 2019年3月18日
依图做语音了!识别精度创中文语音识别新高点
新智元
3+阅读 · 2018年12月12日
用这种方法实现无监督端到端图像分类!(附论文)
数据派THU
8+阅读 · 2018年8月10日
让机器“一叶知秋”:弱监督视觉语义分割
深度学习大讲堂
6+阅读 · 2018年5月24日
何恺明等在图像识别任务上取得重大进展,这次用的是弱监督学习
人工智能头条
6+阅读 · 2018年5月3日
谷歌发布最大图像标注数据集,190 万张图片开启公开图像挑战赛
AI研习社
7+阅读 · 2018年5月1日
学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型
机器之心
3+阅读 · 2017年10月1日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Unsupervised Image Captioning
Arxiv
7+阅读 · 2018年11月27日
Rethinking ImageNet Pre-training
Arxiv
8+阅读 · 2018年11月21日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Global-and-local attention networks for visual recognition
Arxiv
5+阅读 · 2018年9月6日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
CNN+CNN: Convolutional Decoders for Image Captioning
Arxiv
21+阅读 · 2018年5月23日
Group Normalization
Arxiv
7+阅读 · 2018年3月22日
Order-Free RNN with Visual Attention for Multi-Label Classification
Arxiv
16+阅读 · 2017年12月20日
SSD: Single Shot MultiBox Detector
Arxiv
4+阅读 · 2016年12月29日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
ImageNet (数据集)
DeepMind
图像识别
数据库
数据集
对象识别
相关VIP内容
【普林斯顿】持续视角下的机器学习,31页ppt及视频
专知会员服务
23+阅读 · 2020年8月19日
【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究
专知会员服务
144+阅读 · 2020年7月26日
【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
39+阅读 · 2020年7月26日
【Hinton新论文】SimCLRv2来了!提出蒸馏新思路,可迁移至小模型,性能精度超越有监督
专知会员服务
40+阅读 · 2020年7月21日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【普渡大学】提升GNN表达能力的集体学习框架,Boost GNN Expressiveness
专知会员服务
45+阅读 · 2020年3月30日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
重磅!Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%
专知会员服务
31+阅读 · 2020年2月15日
【论文】自训练噪声student模型提高ImageNet分类准确率(Self-training with Noisy Student improves ImageNet classification),谷歌研究科学家Quoc V. Le等
专知会员服务
23+阅读 · 2019年11月20日
热门VIP内容
开通专知VIP会员 享更多权益服务
【ETHZ博士论文】从视觉和语言中学习数字人,248页pdf
【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
类O1复现项目数据和模型开源啦
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
相关资讯
【学界】何恺明团队新作ResNext:Instagram图片预训练,挑战ImageNet新精度
GAN生成式对抗网络
4+阅读 · 2019年6月26日
谷歌开源新模型EfficientNet:图像识别效率提升10倍,参数减少88%
AI前线
15+阅读 · 2019年6月9日
10亿级数据规模的半监督图像分类模型,Imagenet测试精度高达81.2% | 技术头条
AI100
7+阅读 · 2019年5月7日
已删除
将门创投
8+阅读 · 2019年3月18日
依图做语音了!识别精度创中文语音识别新高点
新智元
3+阅读 · 2018年12月12日
用这种方法实现无监督端到端图像分类!(附论文)
数据派THU
8+阅读 · 2018年8月10日
让机器“一叶知秋”:弱监督视觉语义分割
深度学习大讲堂
6+阅读 · 2018年5月24日
何恺明等在图像识别任务上取得重大进展,这次用的是弱监督学习
人工智能头条
6+阅读 · 2018年5月3日
谷歌发布最大图像标注数据集,190 万张图片开启公开图像挑战赛
AI研习社
7+阅读 · 2018年5月1日
学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型
机器之心
3+阅读 · 2017年10月1日
相关论文
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Unsupervised Image Captioning
Arxiv
7+阅读 · 2018年11月27日
Rethinking ImageNet Pre-training
Arxiv
8+阅读 · 2018年11月21日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Global-and-local attention networks for visual recognition
Arxiv
5+阅读 · 2018年9月6日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
CNN+CNN: Convolutional Decoders for Image Captioning
Arxiv
21+阅读 · 2018年5月23日
Group Normalization
Arxiv
7+阅读 · 2018年3月22日
Order-Free RNN with Visual Attention for Multi-Label Classification
Arxiv
16+阅读 · 2017年12月20日
SSD: Single Shot MultiBox Detector
Arxiv
4+阅读 · 2016年12月29日
大家都在搜
洛克菲勒
自主可控
大规模语言模型
CMU博士论文
扩散模型
palantir
智能 经济
路径规划
系统日志告警
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top