Most feedforward convolutional neural networks spend roughly the same efforts for each pixel. Yet human visual recognition is an interaction between eye movements and spatial attention, which we will have several glimpses of an object in different regions. Inspired by this observation, we propose an end-to-end trainable Multi-Glimpse Network (MGNet) which aims to tackle the challenges of high computation and the lack of robustness based on recurrent downsampled attention mechanism. Specifically, MGNet sequentially selects task-relevant regions of an image to focus on and then adaptively combines all collected information for the final prediction. MGNet expresses strong resistance against adversarial attacks and common corruptions with less computation. Also, MGNet is inherently more interpretable as it explicitly informs us where it focuses during each iteration. Our experiments on ImageNet100 demonstrate the potential of recurrent downsampled attention mechanisms to improve a single feedforward manner. For example, MGNet improves 4.76% accuracy on average in common corruptions with only 36.9% computational cost. Moreover, while the baseline incurs an accuracy drop to 7.6%, MGNet manages to maintain 44.2% accuracy in the same PGD attack strength with ResNet-50 backbone. Our code is available at https://github.com/siahuat0727/MGNet.


翻译:多数进化变异神经网络花在每一个像素上的时间大致相同。 然而人类视觉识别是眼运动和空间关注之间的一种互动关系,我们将对不同区域的一个物体有几眼观察。 在这种观察的启发下,我们提议一个端到端可训练的多石墨网络(MGNet),目的是应对高计算的挑战和基于反复下降的吸引机制缺乏强力的问题。具体地说,MGNet按顺序选择一个图像相关任务区域,以关注并随后适应性地将所有收集到的最终预测信息结合起来。MGNet表示强烈抵制对抗对抗性攻击和常见腐败,而计算较少。此外,MGNet在每次循环期间明确告诉我们其重点位置时,因此具有内在的更可解释性。我们在图像网络100上进行的实验显示了经常性下降关注机制的潜力,以改进单一的反馈方式。例如,MGNet按普通腐败的平均4.76%的准确度选择,而只有36.9%的计算成本。此外,尽管基线显示攻击的准确性下降至7.6%,MGMGNet在MG/Resmax Riumal2 管理着MAC44中,MCD-com 。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
23+阅读 · 2021年9月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
45+阅读 · 2020年9月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Attention Network Robustification for Person ReID
Arxiv
5+阅读 · 2019年10月15日
Arxiv
11+阅读 · 2019年4月15日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
45+阅读 · 2020年9月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员