Since Transformer has found widespread use in NLP, the potential of Transformer in CV has been realized and has inspired many new approaches. However, the computation required for replacing word tokens with image patches for Transformer after the tokenization of the image is vast(e.g., ViT), which bottlenecks model training and inference. In this paper, we propose a new attention mechanism in Transformer termed Cross Attention, which alternates attention inner the image patch instead of the whole image to capture local information and apply attention between image patches which are divided from single-channel feature maps capture global information. Both operations have less computation than standard self-attention in Transformer. By alternately applying attention inner patch and between patches, we implement cross attention to maintain the performance with lower computational cost and build a hierarchical network called Cross Attention Transformer(CAT) for other vision tasks. Our base model achieves state-of-the-arts on ImageNet-1K, and improves the performance of other methods on COCO and ADE20K, illustrating that our network has the potential to serve as general backbones. The code and models are available at \url{https://github.com/linhezheng19/CAT}.


翻译:由于变换器在NLP中广泛使用,CV中变换器的潜力已经实现,并激励了许多新的方法。然而,在图像代谢后,用变换器的图像补丁替换用图像补丁以图像补丁所需的计算是巨大的(例如ViT),这是瓶颈模型培训和推理的瓶颈。在本文中,我们建议在变换器称为Crosstention(CAT)中建立一个新的关注机制,在图像补丁中将注意力放在内侧而不是整个图像补丁,以捕捉当地信息,并在从单一通道特征地图中分离的图像补丁之间关注全球信息。两种操作的计算都比变换器中的标准自控量要少。通过在内部和补补补丁之间相互关注,我们进行交叉关注,以较低的计算成本维持性能,并为其他视觉任务建立一个称为Crossente Tranger(CAT)的分级网络。我们的基础模型在图像网-1K上达到状态,改进了其他方法在COCO和ADE20K上的性能表现。说明我们的网络具有作为一般脊柱子的潜力。代码和模型可在 shengurginez/urgresmus/ {urgresmus.

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
3+阅读 · 2020年11月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
相关论文
Arxiv
0+阅读 · 2021年8月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
3+阅读 · 2020年11月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员