With the development of the self-attention mechanism, the Transformer model has demonstrated its outstanding performance in the computer vision domain. However, the massive computation brought from the full attention mechanism became a heavy burden for memory consumption. Sequentially, the limitation of memory reduces the possibility of improving the Transformer model. To remedy this problem, we propose a novel memory economy attention mechanism named Couplformer, which decouples the attention map into two sub-matrices and generates the alignment scores from spatial information. A series of different scale image classification tasks are applied to evaluate the effectiveness of our model. The result of experiments shows that on the ImageNet-1k classification task, the Couplformer can significantly decrease 28% memory consumption compared with regular Transformer while accessing sufficient accuracy requirements and outperforming 0.92% on Top-1 accuracy while occupying the same memory footprint. As a result, the Couplformer can serve as an efficient backbone in visual tasks, and provide a novel perspective on the attention mechanism for researchers.


翻译:随着自留机制的开发,变异器模型在计算机视觉领域表现出其杰出的性能。然而,从全受关注机制中带来的大规模计算成为记忆消耗的沉重负担。因此,内存限制会减少改进变异器模型的可能性。为了解决这个问题,我们提议了一个新的记忆经济关注机制,名为Couplfrent,它将关注地图分解成两个次矩阵,并从空间信息中产生对称分数。运用了一系列不同规模的图像分类任务来评估我们模型的有效性。实验结果表明,在图像Net-1k分类任务中,Couplrew与常规变异器相比,可显著减少28%的内存消耗量,同时获得足够的准确要求,并在保持同样的记忆足迹的同时在Top-1上超过0.92%的准确性。结果是,Couplrew可以作为视觉任务的一个高效的骨干,并为研究人员的注意机制提供新的视角。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
23+阅读 · 2021年9月20日
专知会员服务
30+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
理解卷积神经网络中的自注意力机制
极市平台
5+阅读 · 2020年10月1日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2020年11月28日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月20日
专知会员服务
30+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
理解卷积神经网络中的自注意力机制
极市平台
5+阅读 · 2020年10月1日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关论文
Top
微信扫码咨询专知VIP会员