Learning subtle representation about object parts plays a vital role in fine-grained visual recognition (FGVR) field. The vision transformer (ViT) achieves promising results on computer vision due to its attention mechanism. Nonetheless, with the fixed size of patches in ViT, the class token in deep layer focuses on the global receptive field and cannot generate multi-granularity features for FGVR. To capture region attention without box annotations and compensate for ViT shortcomings in FGVR, we propose a novel method named Adaptive attention multi-scale Fusion Transformer (AFTrans). The Selective Attention Collection Module (SACM) in our approach leverages attention weights in ViT and filters them adaptively to corre-spond with the relative importance of input patches. The multiple scales (global and local) pipeline is supervised by our weights sharing encoder and can be easily trained end-to-end. Comprehensive experiments demonstrate that AFTrans can achieve SOTA performance on three published fine-grained benchmarks: CUB-200-2011, Stanford Dogs and iNat2017.


翻译:视觉变压器(ViT)因其关注机制,在计算机视觉方面取得了有希望的成果。然而,由于ViT中固定的补丁大小,深层的级标牌侧重于全球可接受字段,不能为FGVR产生多色特征。为了在FGVR中不插框注解注而引起区域注意,并弥补ViT的缺陷,我们提议了一种名为适应性关注多级融合变压器(AFTrans)的新方法。在我们的方法中,选择性关注收集模块(SACM)在维特中利用了关注权重,并根据投入补补的相对重要性对之进行过滤。多级(全球和地方)输油管由我们共享的重量编码器监督,可以很容易地进行终端到终端培训。全面实验表明,AFTRT能够实现SOTA在三种已公布的微熟度基准上的业绩:CUB-200-2011, Steford Dogs和iNat2017。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
30+阅读 · 2020年11月12日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
12+阅读 · 2018年6月25日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
30+阅读 · 2021年6月30日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
30+阅读 · 2020年11月12日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
12+阅读 · 2018年6月25日
相关论文
Arxiv
39+阅读 · 2021年11月11日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
30+阅读 · 2021年6月30日
Arxiv
19+阅读 · 2020年12月23日
Top
微信扫码咨询专知VIP会员