不看全图看局部，CNN性能竟然更强了

会员服务 ·

不看全图看局部，CNN性能竟然更强了

2022 年 6 月 8 日 量子位

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

不给全图，只投喂CNN一些看上去毫无信息量的图像碎片，就能让模型学会图像分类。

更重要的是，性能完全不差，甚至还能反超用完整图像训练的模型。

这么一项来自加州大学圣塔芭芭拉分校的新研究，这两天引发不少讨论。

咋地，这就是说，CNN根本无需理解图像全局结构，一样也能SOTA？

具体是怎么一回事，咱们还是直接上论文。

实验证据

研究人员设计了这样一个实验：

他们在CIFAR-10、CIFAR-100、STL-10、Tiny-ImageNet-200以及Imagenet-1K等数据集上训练ResNet。

特别的是，用于训练的图像是通过随机裁剪得到的。

这个“随机裁剪”，可不是往常我们会在数据增强方法中见到的那一种，而是完全不做任何填充。

举个例子，就是对图片做PyTorch的RandomCrop变换时，padding的参数填0。

得到的训练图像就是下面这个样式的。即使你是阅图无数的老司机，恐怕也分辨不出到底是个啥玩意儿。

训练图像如此碎片化，模型的识图能力又能达到几成？

来看实验结果：

好家伙，在CIFAR-10上，用16×16的图像碎片训练出来的模型，测试准确率能达到91%，而用完整的32×32尺寸图像训练出来的模型，测试准确率也不过90%。

这一波，“残缺版”CNN竟然完全不落下风，甚至还反超了“完整版”CNN。

要知道，被喂了碎片的CNN模型，看到的图像甚至可能跟标签显示的物体毫无关系，只是原图中背景的部分……

在STL-10、Tiny-Imagenet-200等数据集上，研究人员也得到了类似的结果。

不过，在CIFAR-100上，还是完整图像训练出来的模型略胜一筹。16×16图像碎片训练出的模型测试准确率为61%，而32×32完整图像训练出的模型准确率为68%。

所以，CNN为何会有如此表现？莫非它本来就是个“近视眼”？

研究人员推测，CNN能有如此优秀的泛化表现，是因为在这个实验中，维度诅咒的影响被削弱了。

所谓维度诅咒（curse of dimensionality），是指当维数提高时，空间体积提高太快，导致可用数据变得稀疏。

而在这项研究中，由于CNN学习到的不是整个图像的标签，而是图像碎片的标签，这就在两个方面降低了维度诅咒的影响：

图像碎片的像素比完整图像小得多，这减少了输入维度
训练期间可用的样本数量增加了

生成热图

基于以上实验观察结果，研究人员还提出以热图的形式，来理解CNN的预测行为，由此进一步对模型的错误做出“诊断”。

就像这样：

这些图像来自于STL-10数据集。热图显示，对于CNN而言，飞机图像中最能“刺激”到模型的，不是飞机本身，而是天空。

同样，在汽车图像中，车轮才是CNN用来识别图像的主要属性。

研究团队

最后，介绍一下论文作者。

论文一作Vamshi Madala小哥，目前是加州大学圣塔芭芭拉分校的一年级博士生。主要研究兴趣是深度学习理论框架，以及用计算机视觉来对理论研究进行测试。

论文的另一位作者是小哥的导师Shivkumar Chandrasekaran，他是加州大学圣塔芭芭拉分校电气与计算机工程教授，博士毕业于耶鲁大学数值分析专业。

论文地址：
https://arxiv.org/abs/2205.10760

— 完 —

直播报名 | 自动驾驶的量产之路：

为什么“渐进式”路径先看到了无人驾驶量产的曙光？

自动驾驶领域一直以来就有“渐进式”和“跨越式”两种路径之争，前者以特斯拉为代表，后者以Waymo为领头羊。

特斯拉宣布2024年实现新型“Robotaxi”的量产，而另一边是Waymo CEO离职，商业化落地裹足不前。在此背后，为什么“渐进式”路径被越来越多的机构看好？“渐进式”技术发展路径是什么？自动驾驶量产离我们的生活还有多远？

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

CNN

关注 2

视觉Transformer预训练模型的胸腔X线影像多标签分类

专知会员服务

6+阅读 · 2022年7月29日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

13个经典CNN架构比较分析！从AlexNet到ResNet再到ConvNeXt

专知会员服务

102+阅读 · 2022年3月14日

【AAAI2022】可解释性ViT登场，谷歌AI提出层次嵌套Transformer模型

专知会员服务

29+阅读 · 2022年1月28日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

【NeurIPS2021】未见深度架构参数预测

专知会员服务

10+阅读 · 2021年10月27日

【CVPR2021】双图层实例分割，大幅提升遮挡处理性能

专知会员服务

18+阅读 · 2021年5月23日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

卷积核扩大到51x51，新型CNN架构SLaK反击Transformer

机器之心

0+阅读 · 2022年7月18日

不看全图看局部，CNN性能竟然更强了！

CVer

0+阅读 · 2022年6月10日

模型难复现不一定是作者的错，最新研究发现模型架构要背锅丨CVPR 2022

量子位

0+阅读 · 2022年3月19日

性能大幅提升！消除图像复原中的“misalignment”

极市平台

1+阅读 · 2021年12月29日

谷歌让NLP模型也能debug，只要给一张「草稿纸」就行

量子位

0+阅读 · 2021年12月4日

用Transformer完全替代CNN

CVer

20+阅读 · 2020年10月23日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

太值得收藏了！秒懂各种深度CNN操作

机器学习算法与Python学习

11+阅读 · 2019年3月18日

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

从R-CNN到Mask R-CNN！

全球人工智能

17+阅读 · 2017年11月13日

6Li-7Li冷原子中绝对跃迁频率和精细结构常数的精密测量

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据分析的互联网服务性能管理体系结构研究

国家自然科学基金

2+阅读 · 2014年12月31日

几类随机过程的局部稳健估计研究及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

二氮化铀物理性能及电子结构研究

国家自然科学基金

0+阅读 · 2013年12月31日

仿海蜇结构和性能水凝胶

国家自然科学基金

0+阅读 · 2012年12月31日

非参数变换模型的统计推断

国家自然科学基金

0+阅读 · 2012年12月31日

超导量子态的精密测量

国家自然科学基金

0+阅读 · 2012年12月31日

新型非掺杂有机电致磷光材料的设计合成与性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

图和复杂网络的谱分析

国家自然科学基金

1+阅读 · 2009年12月31日

复杂网络环境下遥操作系统的性能分析与控制器设计

国家自然科学基金

0+阅读 · 2009年12月31日

PEA: Improving the Performance of ReLU Networks for Free by Using Progressive Ensemble Activations

Arxiv

0+阅读 · 2022年7月28日

3D-Morphomics, Morphological Features on CT scans for lung nodule malignancy diagnosis

Arxiv

0+阅读 · 2022年7月27日

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

Arxiv

0+阅读 · 2022年7月26日

Bayesian Causal Inference in Sequentially Randomized Experiments with Noncompliance

Arxiv

0+阅读 · 2022年7月26日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

A Survey of the Recent Architectures of Deep Convolutional Neural Networks

Arxiv

39+阅读 · 2019年1月17日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

VIP会员