清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

2021 年 11 月 20 日 专知

【导读】注意力机制是深度学习方法的一个重要主题。清华大学计算机图形学团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作，在ArXiv上发布关于计算机视觉中的注意力机制的综述文章[1]。该综述系统地介绍了注意力机制在计算机视觉领域中相关工作，并创建了一个仓库

https://github.com/MenghaoGuo/Awesome-Vision-Attentions

摘要

人类可以自然有效地在复杂的场景中找到显著区域。在这种观察的推动下，注意力机制被引入到计算机视觉中，目的是模仿人类视觉系统的这方面。这种注意力机制可以看作是一个基于输入图像特征的动态权值调整过程。注意力机制在图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习等视觉任务中取得了巨大的成功。本文综述了计算机视觉中的各种注意力机制，并对其进行了分类，如通道注意力、空间注意力、时间注意力和分支注意力; 相关的存储库https://github.com/MenghaoGuo/Awesome-Vision-Attentions专门用于收集相关的工作。本文还提出了注意机力制研究的未来方向。

https://www.zhuanzhi.ai/paper/2329d809f32ca0840bd93429d1cef0fe

引言

将注意力转移到图像中最重要的区域而忽略不相关部分的方法称为注意力机制; 人类视觉系统使用一个[1]，[2]，[3]，[4]来帮助高效和有效地分析和理解复杂的场景。这反过来也启发了研究人员将注意力机制引入计算机视觉系统，以提高它们的表现。在视觉系统中，注意力机制可以看作是一个动态选择过程，根据输入的重要性自适应加权特征来实现。注意力机制在许多视觉任务中提供了好处，例如:图像分类[5]，[6]，目标检测[7]，[8]，语义分割[9]，[10]，人脸识别[11]，[12]，人再识别[13]，[14]，动作识别[15]，[16]，少样本学习[17]，[18]，医学图像处理[19]，[20]，图像生成[21]，[22]，姿态估计[23]，超分辨率[24]，[25]，3D视觉[26]，[27]，多模态任务[28]，[29]。

图1 注意力机制可以根据数据域进行分类。其中包括通道注意力、空间注意力、时间注意力和分支注意力四大类基本注意力，以及通道&空间注意力和空间&时间注意力相结合的两大类混合注意力。∅表示此组合不存在。

在过去的十年中，注意机制在计算机视觉中发挥着越来越重要的作用; 图3，简要总结了深度学习时代计算机视觉中基于注意的模型的历史。进展大致可分为四个阶段。第一阶段从RAM[31]开始，这是一项将深度神经网络与注意力机制结合起来的开创性工作。它通过策略梯度对重要区域进行循环预测，并对整个网络进行端到端更新。后来，各种工作[21]，[35]采用了类似的视觉注意力策略。在这个阶段，循环神经网络(RNNs)是注意机制的必要工具。在第二阶段的开始，Jaderberg等人[32]提出判别歧视性输入特征是第二阶段的主要特征; DCNs[7]、[36]是代表性工作。第三阶段以SENet[5]开始，该网络提出了一种新的管道段的代表作。最后一个阶段是自注意力时代。自注意力最早在[33]中提出，并迅速在自然语言处理领域取得了巨大进展。Wang et al.[15]率先将自注意力引入计算机视觉，提出了一种新型的非局部网络，在视频理解和目标检测方面取得了巨大成功。随后进行了EMANet[40]、CCNet[41]、HamNet[42]和单机网络[43]等一系列工作，提高了速度、结果质量和泛化能力。近年来，各种纯深度自注意力网络(视觉变换器）很明显，基于注意力的模型有潜力取代卷积神经网络，成为计算机视觉中更强大、更通用的架构。

图2 通道注意力、空间注意力和时间注意力可以看作是在不同的领域操作。C为信道域，H和W为空间域，T为时域。分支关注对这些是互补的。图[30]。

本文的目的是对当前计算机视觉中的注意力方法进行总结和分类。我们的方法如图1所示，并在图2中进一步解释 :它是基于数据域的。有些方法考虑重要数据何时出现的问题，或者它在哪里出现的问题，等等，并相应地尝试查找数据中的关键时间或位置。我们将现有的注意力方法分为六类，其中包括四种基本类别:通道注意力(注意力什么[50])、空间注意力(注意什么地方)、时间注意力(注意力什么时间)和分支通道(注意力什么地方)，以及两种混合组合类别:通道&空间注意力和空间&时间注意力。这些观点和相关工作在表2中进行了进一步的简要总结。

对视觉注意力方法的系统综述，包括注意力机制的统一描述、视觉注意机制的发展以及当前的研究;
根据他们的数据域对注意力方法进行分类分组，使我们能够独立于特定的应用程序将视觉注意力方法联系起来
对未来视觉注意力研究的建议。

什么是注意力机制？

注意力机制可以理解为，计算机视觉系统在模拟人类视觉系统中可以迅速高效地关注到重点区域的特性。对于人类来说，当面对复杂场景的时候，我们可以迅速关注到重点区域，并处理这些区域。对于视觉系统，上述过程可以抽象成下面的式子：

其中 g(x) 表示对输入特征进行处理并产生注意力的过程，f(g(x),x) 表示结合注意力对输入特征进行处理的过程。举两个具体的例子self-attention[2]和senet[3]，对于 self-attention 来说，可以将上述公式具体化为：

对于 senet 来说，可以将上述公式具体化为：

接下来，该综述尝试将不同的注意力机制进行具体化，即明确 g 过程和 f 过程。这是该综述对注意力机制的第一个统一的角度：定义上的统一。

注意力机制发展以及分类

视觉中注意力机制的发展过程如图1所示。

图1 视觉中注意力机制的发展过程

视觉中的注意力机制可以粗略的分成四个部分：第一个部分是开始于 RAM[4]，特点是都使用了RNN网络进行产生注意力。第二个部分是开始于 STN[5]，特点是显式地预测重要的区域，代表性工作还有DCNs[6, 7] 等。第三个部分是开始于 SENet[3]，特点是隐式地预测重要的部分，代表性工作还有CBAM[8] 等。第四个部分是自注意力机制相关的注意力方法，代表性工作有Non-Local[2], ViT[9] 等。图2给出了这些方法的分类树。

图2 视觉中注意力机制分类

注意力分类

简要总结注意力类别及重点相关工作。

结论

在深度学习时代，注意力机制已经成为计算机视觉领域不可或缺的技术。本文系统地综述了计算机视觉中深度神经网络的注意力机制。我们将不同的注意力方法根据其操作领域而不是应用任务进行分组，并表明注意力模型可以被视为一个独立的主题。并对未来的研究方向进行了展望。我们希望这项工作将鼓励各种潜在的应用开发人员将注意力机制用于提高他们的深度学习结果。我们也希望藉此综述查能让研究者更深入地了解不同的注意力机制及它们之间的关系，作为未来研究的跳板。

该综述文还提出了注意力机制方面七个潜在的研究方向，分别为:

注意力机制的充分必要条件
更加通用的注意力模块
注意力机制的可解释性
注意力机制中的稀疏激活
基于注意力机制的预训练模型
适用于注意力机制的优化方法
部署注意力机制的模型

参考文献

M.-H. Guo, T.-X. Xu, J.-J. Liu, Z.-N. Liu, P.-T. Jiang, T.-J. Mu, S.-H. Zhang, R. R. Martin, M.-M. Cheng and S.-M. Hu, Attention Mechanisms in Computer Vision: A Survey，arXiv 2111.07624.
X. Wang, R. Girshick, A. Gupta, K. He, Non-local neural networks, CVPR 2018, 7794-7803.
J. Hu, L. Shen, S. Albanie, G. Sun, E. Wu, Squeeze-and-excitation networks, IEEE TPAMI, 2020，Vol. 42, No. 8, 2011-2023
V. Mnih, N. Heess, A. Graves, K. Kavukcuoglu, Recurrent models of visual attention, NeurIPS 2014，2204-2212.
M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, Spatial transformer networks, NeurIPS 2015, 2017-2025.
J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, Y. Wei, Deformable convolutional networks, ICCV 2017, 764-773.

参考链接：
https://mp.weixin.qq.com/s/0iOZ45NTK9qSWJQlcI3_kQ

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ACV” 就可以获取《清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法》论文专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

112+阅读 · 2022年4月20日

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

103+阅读 · 2022年3月29日

2021->2022必看的十篇「深度学习领域综述」论文

专知会员服务

114+阅读 · 2022年1月1日