Recent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision tasks. However, existing ViTs focus on the standard accuracy and computation cost, lacking the investigation of the intrinsic influence on model robustness and generalization. In this work, we conduct systematic evaluation on components of ViTs in terms of their impact on robustness to adversarial examples, common corruptions and distribution shifts. We find some components can be harmful to robustness. By using and combining robust components as building blocks of ViTs, we propose Robust Vision Transformer (RVT), which is a new vision transformer and has superior performance with strong robustness. We further propose two new plug-and-play techniques called position-aware attention scaling and patch-wise augmentation to augment our RVT, which we abbreviate as RVT*. The experimental results on ImageNet and six robustness benchmarks show the advanced robustness and generalization ability of RVT compared with previous ViTs and state-of-the-art CNNs. Furthermore, RVT-S* also achieves Top-1 rank on multiple robustness leaderboards including ImageNet-C and ImageNet-Sketch. The code will be available at \url{https://git.io/Jswdk}.


翻译:视觉变异器(VIT)及其经改进的变体的最新进展显示,在多数视觉任务中,基于自我注意的网络超越了传统的革命神经网络(CNNs),但是,现有的VIT侧重于标准精确度和计算成本,缺乏对模型稳健性和一般化内在影响的调查,在这项工作中,我们从对对抗性范例、常见腐败和分布变化的稳健性的影响的角度对VIT的组成部分进行系统评价。我们发现,某些组成部分可能有害于强健性。通过使用和结合强健的构件作为VTs的构件,我们提出了Robust愿景变异器(RVT),这是一个新的视觉变异器,其性能很强。我们进一步提议了两种新的插座和游戏技术,即定位注意力的缩放和配对增强我们的RVT,我们将其缩写为RVT*。关于图像网络的实验结果和6个强健性基准显示RVT与前VTs和州级S-stal-stat级S-stal 图像网络* 还将在S-stal-ch-stal-stal-stal-stal-stal-stal-stal-stal-stal-stal-stal-st-stalmet=S.

2
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
44+阅读 · 2020年10月31日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
0+阅读 · 2021年7月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2018年4月18日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
相关论文
Arxiv
0+阅读 · 2021年7月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2018年4月18日
Top
微信扫码咨询专知VIP会员