Vision transformers (ViTs) have recently demonstrated state-of-the-art performance in a variety of vision tasks, replacing convolutional neural networks (CNNs). Meanwhile, since ViT has a different architecture than CNN, it may behave differently. To investigate the reliability of ViT, this paper studies the behavior and robustness of ViT. We compared the robustness of CNN and ViT by assuming various image corruptions that may appear in practical vision tasks. We confirmed that for most image transformations, ViT showed robustness comparable to CNN or more improved. However, for contrast enhancement, severe performance degradations were consistently observed in ViT. From a detailed analysis, we identified a potential problem: positional embedding in ViT's patch embedding could work improperly when the color scale changes. Here we claim the use of PreLayerNorm, a modified patch embedding structure to ensure scale-invariant behavior of ViT. ViT with PreLayerNorm showed improved robustness in various corruptions including contrast-varying environments.


翻译:视觉变压器(ViTs)最近展示了各种视觉任务中最先进的性能,取代了进化神经网络(CNNs ) 。 与此同时,由于ViT有与CNN不同的结构,它的行为可能有所不同。为了调查ViT的可靠性,本文研究了ViT的行为和稳健性。我们比较了CNN和ViT的强健性,假设在实际的视觉任务中可能出现各种图像腐败。我们确认,对于大多数图像转换而言,ViT表现出与CNN的强力或更大的强力。然而,为了提高对比,ViT持续观察到严重的性能退化。我们从详细分析中发现了一个潜在问题:在ViT的嵌入补时,在彩色比例变化时,定位嵌入的定位可能运作不当。我们在这里声称使用Pre LayerNorm,一个经过修改的嵌合结构,以确保ViT.ViT和PreLayerNorm在对比环境等各种腐败中的强性。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
29+阅读 · 2021年7月30日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
专知会员服务
15+阅读 · 2020年7月27日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
0+阅读 · 2022年1月20日
Arxiv
39+阅读 · 2021年11月11日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员