Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity. Code is available at https://github.com/Atten4Vis/DemystifyLocalViT.


翻译:视觉变异器( VIT) 在视觉识别方面达到最先进的表现, 变异器( 本地视野变异器) 取得了进一步的改进。 本地视野变异器( 本地视野变异器) 的主要组成部分是本地视野变异器( 本地关注), 将关注分散在小的本地窗口中。 我们把本地关注重新表述为频道化的本地连接层, 从两种网络正规化方式、 连接和重量共享, 以及重量计算来分析它。 粗略的连接: 各频道之间没有连接, 每个位置都与一个小地方窗口的位置连接。 加权共享: 一个位置的连接权重在各频道之间或每组频道内部共享。 动态权重: 每个图像变异器( 本地视野变异器) 的连接权重根据每个图像来动态预测。 本地视野变异器( 内变异器) 和动态变异器( 变异器) 显示系统变异器( ) 变异器( 变异器) 和变异系统( ) 变异器( 变形) 变形( 变形) 变变形/ 变形( ) 变形( 变形) 变形( 变形) 变形( ) 变形) 变法( ) 变形/ ) ) 变形( ) 变形变形( ) ( 变形) ( ) ) 变形( ) ( 变法( ) ) ) ) ( 变形( ) ( 变形) ( ) ( ) ( ) ( 变形/变形/变形/变形/变形( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 变形) ( 变形) ( ) ( ) ( ) ( ) ( ) 变形) ( ) ( ) ( ) ( ) ( 变形) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (变形) ( ) (变形) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 变形) (

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
253+阅读 · 2020年4月19日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium9
中国图象图形学学会CSIG
0+阅读 · 2021年12月17日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
58+阅读 · 2021年11月15日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium9
中国图象图形学学会CSIG
0+阅读 · 2021年12月17日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
相关论文
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
58+阅读 · 2021年11月15日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员