摘要

人类可以自然有效地在复杂的场景中找到显著区域。在这种观察的推动下,注意力机制被引入到计算机视觉中,目的是模仿人类视觉系统的这方面。这种注意力机制可以看作是一个基于输入图像特征的动态权值调整过程。注意力机制在图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习等视觉任务中取得了巨大的成功。本文综述了计算机视觉中的各种注意力机制,并对其进行了分类,如通道注意力、空间注意力、时间注意力和分支注意力; 相关的存储库https://github.com/MenghaoGuo/Awesome-Vision-Attentions专门用于收集相关的工作。本文还提出了注意机力制研究的未来方向。

https://www.zhuanzhi.ai/paper/2329d809f32ca0840bd93429d1cef0fe

引言

将注意力转移到图像中最重要的区域而忽略不相关部分的方法称为注意力机制; 人类视觉系统使用一个[1],[2],[3],[4]来帮助高效和有效地分析和理解复杂的场景。这反过来也启发了研究人员将注意力机制引入计算机视觉系统,以提高它们的表现。在视觉系统中,注意力机制可以看作是一个动态选择过程,根据输入的重要性自适应加权特征来实现。注意力机制在许多视觉任务中提供了好处,例如:图像分类[5],[6],目标检测[7],[8],语义分割[9],[10],人脸识别[11],[12],人再识别[13],[14],动作识别[15],[16],少样本学习[17],[18],医学图像处理[19],[20],图像生成[21],[22],姿态估计[23],超分辨率[24],[25],3D视觉[26],[27],多模态任务[28],[29]。

图1 注意力机制可以根据数据域进行分类。其中包括通道注意力、空间注意力、时间注意力和分支注意力四大类基本注意力,以及通道&空间注意力和空间&时间注意力相结合的两大类混合注意力。∅表示此组合不存在。

在过去的十年中,注意机制在计算机视觉中发挥着越来越重要的作用; 图3,简要总结了深度学习时代计算机视觉中基于注意的模型的历史。进展大致可分为四个阶段。第一阶段从RAM[31]开始,这是一项将深度神经网络与注意力机制结合起来的开创性工作。它通过策略梯度对重要区域进行循环预测,并对整个网络进行端到端更新。后来,各种工作[21],[35]采用了类似的视觉注意力策略。在这个阶段,循环神经网络(RNNs)是注意机制的必要工具。在第二阶段的开始,Jaderberg等人[32]提出判别歧视性输入特征是第二阶段的主要特征; DCNs[7]、[36]是代表性工作。第三阶段以SENet[5]开始,该网络提出了一种新的管道段的代表作。最后一个阶段是自注意力时代。自注意力最早在[33]中提出,并迅速在自然语言处理领域取得了巨大进展。Wang et al.[15]率先将自注意力引入计算机视觉,提出了一种新型的非局部网络,在视频理解和目标检测方面取得了巨大成功。随后进行了EMANet[40]、CCNet[41]、HamNet[42]和单机网络[43]等一系列工作,提高了速度、结果质量和泛化能力。近年来,各种纯深度自注意力网络(视觉变换器)很明显,基于注意力的模型有潜力取代卷积神经网络,成为计算机视觉中更强大、更通用的架构。

本文的目的是对当前计算机视觉中的注意力方法进行总结和分类。我们的方法如图1所示,并在图2中进一步解释 :它是基于数据域的。有些方法考虑重要数据何时出现的问题,或者它在哪里出现的问题,等等,并相应地尝试查找数据中的关键时间或位置。我们将现有的注意力方法分为六类,其中包括四种基本类别:通道注意力(注意力什么[50])、空间注意力(注意什么地方)、时间注意力(注意力什么时间)和分支通道(注意力什么地方),以及两种混合组合类别:通道&空间注意力和空间&时间注意力。这些观点和相关工作在表2中进行了进一步的简要总结。

  • 对视觉注意力方法的系统综述,包括注意力机制的统一描述、视觉注意机制的发展以及当前的研究;

  • 根据他们的数据域对注意力方法进行分类分组,使我们能够独立于特定的应用程序将视觉注意力方法联系起来

  • 对未来视觉注意力研究的建议。

成为VIP会员查看完整内容
0
33

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

随着以自然为灵感的纯粹注意力模型,即transformer的出现,以及它们在自然语言处理(NLP)方面的成功,它们对机器视觉(MV)任务的扩展是不可避免的,而且感觉非常强烈。随后,视觉变换器(ViTs)的引入给现有的基于深度学习的机器视觉技术带来了挑战。然而,纯粹的基于注意力的模型/架构,如变换器,需要大量的数据、大量的训练时间和大量的计算资源。最近的一些工作表明,这两个不同领域的组合可以证明构建具有这两个领域的优点的系统。据此,这一现状的综述论文是介绍,希望将帮助读者得到有用的信息,这一有趣的和潜在的研究领域。首先介绍了注意力机制,然后讨论了流行的基于注意力的深度架构。随后,我们讨论了基于机器视觉的注意机制与深度学习交叉的主要类别。然后,讨论了本文研究范围内的主要算法、问题和发展趋势。

成为VIP会员查看完整内容
0
43

在人类中,注意力是所有感知和认知操作的核心属性。考虑到我们处理竞争性信息来源的能力有限,注意力机制选择、调整和关注与行为最相关的信息。

几十年来,哲学、心理学、神经科学和计算机科学都在研究注意力的概念和功能。在过去的六年中,这一特性在深度神经网络中得到了广泛的研究。目前,深度学习的研究进展主要体现在几个应用领域的神经注意力模型上。

本研究对神经注意力模型的发展进行了全面的概述和分析。我们系统地回顾了该领域的数百个架构,识别并讨论了那些注意力显示出重大影响的架构。我们亦制订了一套自动化方法体系,并将其公诸于众,以促进这方面的研究工作。通过批判性地分析650部文献,我们描述了注意力在卷积、循环网络和生成模型中的主要用途,识别了使用和应用的共同子组。

此外,我们还描述了注意力在不同应用领域的影响及其对神经网络可解释性的影响。最后,我们列出了进一步研究的可能趋势和机会,希望这篇综述能够对该领域的主要注意力模型提供一个简明的概述,并指导研究者开发未来的方法,以推动进一步的改进。

成为VIP会员查看完整内容
0
123

现在注意力机制已广泛地应用在深度学习的诸多领域。基于注意力机制的结构模型不仅能够记录信息间的位置关系,还能依据信息的权重去度量不同信息特征的重要性。通过对信息特征进行相关与不相关的抉择建立动态权重参数,以加强关键信息弱化无用信息,从而提高深度学习算法效率同时也改进了传统深度学习的一些缺陷。因此从图像处理领域、自然语言处理、数据预测等不同应用方面介绍了一些与注意力机制结合的算法结构,并对近几年大火的基于注意力机制的transformer和reformer算法进行了综述。鉴于注意力机制的重要性,综述了注意力机制的研究发展,分析了注意力机制目前的发展现状并探讨了该机制未来可行的研究方向。

成为VIP会员查看完整内容
0
52

Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受Transformer强大的表征能力的启发,研究人员提出将Transformer扩展到计算机视觉任务中。与卷积网络和循环网络等其他网络类型相比,基于Transformer的模型在各种视觉基准上都具有竞争力,甚至表现出了更好的性能。在本文中,作者对这些视觉变换器模型进行了文献综述,将它们按照不同的任务进行分类,并分析了这些方法的优缺点。具体来说,主要包括基础图像分类(basic image classification)、高级视觉(high-level vision)、低级视觉(low-level vision)和视频处理(video processing)。由于自注意力(self-attention)是变换器中的基础部件,作者简要重新审视了自注意力在计算机视觉中的位置。为变换器推向实际应用,本文包含了高效的变换器方法。最后,作者给出了视觉变换器的未来研究方向。

https://arxiv.org/abs/2012.12556

深度神经网络已成为现代人工智能系统的基础设施。针对不同的任务,已经提出了不同的网络类型。多层感知(Multi-layer perception, MLP)或称全连接(full - connected, FC)网络是由多个线性层和非线性激活叠加而成的经典神经网络[104,105]。卷积神经网络(CNNs)引入了卷积层和池化层,用于处理图像等位移不变数据[68,65]。循环神经网络(RNNs)利用循环细胞来处理顺序数据或时间序列数据[106,49]。Transformer是一种新提出的神经网络,主要利用自注意力机制[5,90]来提取内在特征[123]。其中转换器网络是新近发明的一种神经网络,在人工智能方面具有广泛的应用潜力。

Transformer最初应用于自然语言处理(natural language processing, NLP)任务,并带来了显著的改进[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力机制的转换器,用于机器翻译和英语分析任务。Devlin等人[29]引入了一种新的语言表示模型,称为BERT,该模型通过联合调节左右上下文,从未标记的文本中预训练一个Transformer。BERT在当时的十一个NLP任务中获得了最先进的结果。Brown等人[10]在45TB压缩纯文本数据上预训练了一个具有1750亿参数的基于巨型Transformer的GPT-3模型,在不进行微调的情况下,在不同类型的下游自然语言任务上实现了强大的性能。这些基于Transformer的模型显示了较强的表示能力,并在自然语言处理领域取得了突破。

受自然语言处理中transformer 功能的启发,近年来研究人员将transformer 扩展到计算机视觉任务中。CNN曾经是视觉应用的基础组件[47,103],但transformer作为CNN的替代品正在表现出它的能力。Chen等人[18]训练序列转换器进行自回归预测像素,实现与CNN在图像分类任务上的相匹配结果。ViT是Dosovitskiy等人[31]最近提出的一种视觉transformer 模型,它将纯transformer 直接应用于图像贴片序列,在多个图像识别基准上获得了最先进的性能。除了基本的图像分类,transformer还被用于解决更多的计算机视觉问题,如目标检测[14,155]、语义分割、图像处理和视频理解。由于其优异的性能,越来越多的基于transformer的模型被提出用于改进各种视觉任务。

基于transformer的视觉模型如雨后春笋般涌现,这让我们很难跟上新发展的步伐。因此,对现有工作的调研是有益的,对社区是有益的。在本文中,我们对视觉transformer的最新进展进行了全面的概述,并讨论了进一步改进的潜在方向。为了获得更好的存档并方便不同主题的研究人员,我们按应用场景对transformer模型进行分类,如表1所示。具体来说,主要内容包括基本图像分类、高级视觉、低级视觉和视频处理。高级视觉处理图像中看到的东西的解释和使用[121],如对象检测、分割和车道检测。已经有许多transformer模型解决这些高级视觉任务,如DETR[14],用于目标检测的变形DETR[155]和用于分割的Max-DeepLab[126]。低级别图像处理主要涉及从图像(通常表示为图像本身)[35]中提取描述,其典型应用包括超分辨率、图像去噪和样式转换。很少有研究[17,92]在低级视觉中使用transformer,需要更多的研究。除了基于图像的任务外,视频处理也是计算机视觉的一个重要部分。由于视频的时序性,transformer自然可以应用于视频中[154,144]。与传统的CNN或RNNs相比,Transformer在这些任务上开始表现出具有竞争力的性能。本文对基于Transformer的可视化模型的研究工作进行了综述,以跟上这一领域的发展步伐。视觉Transformer的开发时间表如图所示,我们相信会有越来越多的优秀作品被镌刻在里程碑上。

本文的其余部分组织如下。第二节首先制定了自注意力机制和标准transformer。我们在第三节中描述了在自然语言处理中transformer的方法,因为研究经验可能有助于视觉任务。接下来,第四部分是本文的主要部分,总结了图像分类、高级视觉、低级视觉和视频任务上的视觉变形模型。我们还简要回顾了CV的自注意力机制和高效Transformer方法,因为它们与我们的主题密切相关。最后,对全文进行了总结,并对今后的研究方向和面临的挑战进行了讨论。

与卷积神经网络相比,Transformer 以其优异的性能和巨大的潜力成为计算机视觉领域的研究热点。为了发现和利用Transformer的效用,正如在调研中总结的那样,近年来已经提出了一些解决方案。这些方法在基础图像分类、高级视觉、低级视觉和视频处理等视觉任务中表现出优异的性能。然而,计算机视觉Transformer的潜力还没有被充分发掘,还有一些挑战有待解决。

虽然研究者们已经提出了许多基于Transformer的模型来处理计算机视觉任务,但这些工作只是初步的解决方案,还有很大的改进空间。例如,ViT[31]的transformer 架构遵循NLP的标准transformer [123]。针对CV的改进版本还有待探索。除此之外,transformer 还需要应用在更多的任务上。

此外,现有的视觉transformer 模型大多是针对单一任务而设计的。许多NLP模型,如GPT-3[10],都显示了transformer在一个模型中处理多个任务的能力。在CV区域的IPT[17]还能够处理多个低分辨率的视觉任务,如超分辨率、图像去噪和去噪。我们认为,只有一种模式可以涉及更多的任务。最后,开发高效的CV转换器模型也是一个有待解决的问题。transformer 模型通常是巨大的和计算昂贵的,例如,基本的ViT模型[31]需要180亿次浮点运算来处理一个图像。相比之下,轻量级的CNN模型GhostNet[44,45]只需约6亿次FLOPs就能达到类似的性能。虽然有几种压缩transformer 的方法,但它们的复杂性仍然很大。而这些最初为自然语言处理设计的方法可能并不适用于CV。

成为VIP会员查看完整内容
0
60
小贴士
相关VIP内容
专知会员服务
43+阅读 · 6月17日
专知会员服务
52+阅读 · 1月26日
专知会员服务
60+阅读 · 2020年12月25日
专知会员服务
113+阅读 · 2020年9月7日
专知会员服务
139+阅读 · 2020年7月31日
相关资讯
综述|计算机视觉中的注意力机制
极市平台
3+阅读 · 2020年8月30日
一文读懂Attention机制
机器学习与推荐算法
34+阅读 · 2020年6月9日
用Attention玩转CV,一文总览自注意力语义分割进展
自然语言处理中注意力机制综述
Python开发者
10+阅读 · 2019年1月31日
【干货】注意力机制(Attention)最新综述论文及相关源码
GAN生成式对抗网络
11+阅读 · 2018年11月16日
干货 | NLP中的self-attention【自-注意力】机制
机器学习算法与Python学习
12+阅读 · 2018年4月11日
干货!自然语言处理中的自注意力机制!
全球人工智能
9+阅读 · 2018年3月27日
深度学习中的注意力机制
CSDN大数据
19+阅读 · 2017年11月2日
相关论文
Hanxiao Liu,Zihang Dai,David R. So,Quoc V. Le
21+阅读 · 5月17日
Jiawei Sheng,Shu Guo,Zhenyu Chen,Juwei Yue,Lihong Wang,Tingwen Liu,Hongbo Xu
11+阅读 · 2020年10月19日
Debjit Paul,Anette Frank
4+阅读 · 2020年10月12日
Yi Tay,Mostafa Dehghani,Dara Bahri,Donald Metzler
14+阅读 · 2020年9月16日
KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue
Xiaoze Jiang,Siyi Du,Zengchang Qin,Yajing Sun,Jing Yu
8+阅读 · 2020年8月11日
Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection
Kaihua Zhang,Tengpeng Li,Shiwen Shen,Bo Liu,Jin Chen,Qingshan Liu
10+阅读 · 2020年3月13日
Talking-Heads Attention
Noam Shazeer,Zhenzhong Lan,Youlong Cheng,Nan Ding,Le Hou
12+阅读 · 2020年3月5日
Area Attention
Yang Li,Lukasz Kaiser,Samy Bengio,Si Si
5+阅读 · 2019年5月23日
Global-and-local attention networks for visual recognition
Drew Linsley,Dan Shiebler,Sven Eberhardt,Thomas Serre
5+阅读 · 2018年9月6日
Badri Patro,Vinay P. Namboodiri
4+阅读 · 2018年4月3日
Top