The core for tackling the fine-grained visual categorization (FGVC) is to learn subtleyet discriminative features. Most previous works achieve this by explicitly selecting thediscriminative parts or integrating the attention mechanism via CNN-based approaches.However, these methods enhance the computational complexity and make the modeldominated by the regions containing the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA performance on general image recognition tasks. Theself-attention mechanism aggregates and weights the information from all patches to theclassification token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation token in the deep layer pays more attention to the global information, lackingthe local and low-level features that are essential for FGVC. In this work, we proposea novel pure transformer-based framework Feature Fusion Vision Transformer (FFVT)where we aggregate the important tokens from each transformer layer to compensate thelocal, low-level and middle-level information. We design a novel token selection mod-ule called mutual attention weight selection (MAWS) to guide the network effectivelyand efficiently towards selecting discriminative tokens without introducing extra param-eters. We verify the effectiveness of FFVT on three benchmarks where FFVT achievesthe state-of-the-art performance.


翻译:解决细微视觉分类(FGVC)的核心是学习细微的差别化特征。 大部分以前的工作是通过明确选择偏差部分或通过有线电视新闻网的方法整合关注机制来实现这一点。 但是,这些方法提高了计算的复杂性,并使含有大多数物体的区域主导模型。 最近, 视觉转换(VIT)在一般图像识别任务上取得了SOTA的性能。 自我注意机制将所有补丁的信息汇总和加权到分类符号中, 使信息完全适合FGVC 。 然而, 深层的分类标志更加关注全球信息,缺乏对FGVC至关重要的本地和低级别特征。 在这项工作中, 我们提出了一个全新的纯基于变异框架“ 变异视野变变变变变变变变变变变变变变变变变变变变”, 将每个变换层的重要标志加在一起, 以补偿本地、 低级和中级信息。 我们设计了一个新型的标志性选择模块, 即相互关注重度选择(MAWS), 来有效验证业绩网络。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
专知会员服务
46+阅读 · 2020年10月5日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
Arxiv
0+阅读 · 2021年9月8日
Arxiv
0+阅读 · 2021年9月3日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年7月30日
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
专知会员服务
46+阅读 · 2020年10月5日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
Top
微信扫码咨询专知VIP会员