华为等发布《视觉Transformer转换器》综述论文,21页pdf

2020 年 12 月 25 日 专知

本文是华为诺亚联合发布的业界首个视觉变换器(Transformer)综述



Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受Transformer强大的表征能力的启发,研究人员提出将Transformer扩展到计算机视觉任务中。与卷积网络和循环网络等其他网络类型相比,基于Transformer的模型在各种视觉基准上都具有竞争力,甚至表现出了更好的性能。在本文中,作者对这些视觉变换器模型进行了文献综述,将它们按照不同的任务进行分类,并分析了这些方法的优缺点。具体来说,主要包括基础图像分类(basic image classification)、高级视觉(high-level vision)、低级视觉(low-level vision)和视频处理(video processing)。由于自注意力(self-attention)是变换器中的基础部件,作者简要重新审视了自注意力在计算机视觉中的位置。为变换器推向实际应用,本文包含了高效的变换器方法。最后,作者给出了视觉变换器的未来研究方向。


https://www.zhuanzhi.ai/paper/40ab7c9e9bd080f833fda87da907a6b3



深度神经网络已成为现代人工智能系统的基础设施。针对不同的任务,已经提出了不同的网络类型。多层感知(Multi-layer perception, MLP)或称全连接(full - connected, FC)网络是由多个线性层和非线性激活叠加而成的经典神经网络[104,105]。卷积神经网络(CNNs)引入了卷积层和池化层,用于处理图像等位移不变数据[68,65]。循环神经网络(RNNs)利用循环细胞来处理顺序数据或时间序列数据[106,49]。Transformer是一种新提出的神经网络,主要利用自注意力机制[5,90]来提取内在特征[123]。其中转换器网络是新近发明的一种神经网络,在人工智能方面具有广泛的应用潜力。



Transformer最初应用于自然语言处理(natural language processing, NLP)任务,并带来了显著的改进[123,29,10]。例如,Vaswani等人[123]首先提出了完全基于注意力机制的转换器,用于机器翻译和英语分析任务。Devlin等人[29]引入了一种新的语言表示模型,称为BERT,该模型通过联合调节左右上下文,从未标记的文本中预训练一个Transformer。BERT在当时的十一个NLP任务中获得了最先进的结果。Brown等人[10]在45TB压缩纯文本数据上预训练了一个具有1750亿参数的基于巨型Transformer的GPT-3模型,在不进行微调的情况下,在不同类型的下游自然语言任务上实现了强大的性能。这些基于Transformer的模型显示了较强的表示能力,并在自然语言处理领域取得了突破。


受自然语言处理中transformer 功能的启发,近年来研究人员将Transformer 扩展到计算机视觉任务中。CNN曾经是视觉应用的基础组件[47,103],但transformer作为CNN的替代品正在表现出它的能力。Chen等人[18]训练序列转换器进行自回归预测像素,实现与CNN在图像分类任务上的相匹配结果。ViT是Dosovitskiy等人[31]最近提出的一种视觉transformer 模型,它将纯transformer 直接应用于图像贴片序列,在多个图像识别基准上获得了最先进的性能。除了基本的图像分类,transformer还被用于解决更多的计算机视觉问题,如目标检测[14,155]、语义分割、图像处理和视频理解。由于其优异的性能,越来越多的基于transformer的模型被提出用于改进各种视觉任务。


基于transformer的视觉模型如雨后春笋般涌现,这让我们很难跟上新发展的步伐。因此,对现有工作的调研是有益的,对社区是有益的。在本文中,我们对视觉transformer的最新进展进行了全面的概述,并讨论了进一步改进的潜在方向。为了获得更好的存档并方便不同主题的研究人员,我们按应用场景对transformer模型进行分类,如表1所示。具体来说,主要内容包括基本图像分类、高级视觉、低级视觉和视频处理。高级视觉处理图像中看到的东西的解释和使用[121],如对象检测、分割和车道检测。已经有许多transformer模型解决这些高级视觉任务,如DETR[14],用于目标检测的变形DETR[155]和用于分割的Max-DeepLab[126]。低级别图像处理主要涉及从图像(通常表示为图像本身)[35]中提取描述,其典型应用包括超分辨率、图像去噪和样式转换。很少有研究[17,92]在低级视觉中使用transformer,需要更多的研究。除了基于图像的任务外,视频处理也是计算机视觉的一个重要部分。由于视频的时序性,transformer自然可以应用于视频中[154,144]。与传统的CNN或RNNs相比,Transformer在这些任务上开始表现出具有竞争力的性能。本文对基于Transformer的可视化模型的研究工作进行了综述,以跟上这一领域的发展步伐。视觉Transformer的开发时间表如图1所示,我们相信会有越来越多的优秀作品被镌刻在里程碑上。


本文的其余部分组织如下。第二节首先制定了自注意力机制和标准transformer。我们在第三节中描述了在自然语言处理中transformer的方法,因为研究经验可能有助于视觉任务。接下来,第四部分是本文的主要部分,总结了图像分类、高级视觉、低级视觉和视频任务上的视觉变形模型。我们还简要回顾了CV的自注意力机制和高效Transformer方法,因为它们与我们的主题密切相关。最后,对全文进行了总结,并对今后的研究方向和面临的挑战进行了讨论。



与卷积神经网络相比,Transformer 以其优异的性能和巨大的潜力成为计算机视觉领域的研究热点。为了发现和利用Transformer的效用,正如在调研中总结的那样,近年来已经提出了一些解决方案。这些方法在基础图像分类、高级视觉、低级视觉和视频处理等视觉任务中表现出优异的性能。然而,计算机视觉Transformer的潜力还没有被充分发掘,还有一些挑战有待解决。


虽然研究者们已经提出了许多基于Transformer的模型来处理计算机视觉任务,但这些工作只是初步的解决方案,还有很大的改进空间。例如,ViT[31]的transformer 架构遵循NLP的标准transformer [123]。针对CV的改进版本还有待探索。除此之外,transformer 还需要应用在更多的任务上。


此外,现有的视觉Transformer 模型大多是针对单一任务而设计的。许多NLP模型,如GPT-3[10],都显示了Transformer在一个模型中处理多个任务的能力。在CV区域的IPT[17]还能够处理多个低分辨率的视觉任务,如超分辨率、图像去噪和去噪。我们认为,只有一种模型可以涉及更多的任务。最后,开发高效的CV转换器模型也是一个有待解决的问题。Transformer 模型通常是巨大的和计算昂贵的,例如,基本的ViT模型[31]需要180亿次浮点运算来处理一个图像。相比之下,轻量级的CNN模型GhostNet[44,45]只需约6亿次FLOPs就能达到类似的性能。虽然有几种压缩Transformer 的方法,但它们的复杂性仍然很大。而这些最初为自然语言处理设计的方法可能并不适用于CV。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“Tr21” 可以获取《华为等发布《视觉Transformer转换器》综述论文,21页pdf》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
63+阅读 · 2021年4月11日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
59+阅读 · 2020年10月27日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
179+阅读 · 2020年9月7日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
25+阅读 · 2020年8月19日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
最新《图嵌入组合优化》综述论文,40页pdf
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
专知会员服务
63+阅读 · 2021年4月11日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
59+阅读 · 2020年10月27日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
179+阅读 · 2020年9月7日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
25+阅读 · 2020年8月19日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
相关论文
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员