Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent networks. Given its high performance and less need for vision-specific inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these vision transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also include efficient transformer methods for pushing transformer into real device-based applications. Furthermore, we also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Toward the end of this paper, we discuss the challenges and provide several further research directions for vision transformers.


翻译:首先应用于自然语言处理领域的变压器是一种主要基于自我注意机制的深层神经网络,由于具有很强的代表性能力,研究人员正在研究如何将变压器应用到计算机的视觉任务中。在各种视觉基准中,变压器模型的性能与其他类型的网络类似或优于其他类型的变压器,例如变压器和经常性网络。鉴于变压器的性能很高,对视距特定感应偏差的需求较少,变压器越来越受到计算机视觉界的注意。在本文中,我们审查这些视觉变压器模型,将其分为不同的任务并分析其优缺点。我们探讨的主要类别包括主干网、高/中度视觉、低度视觉和视频处理。我们还包括将变压器推入实际设备应用的高效变压器方法。此外,我们还简要地研究了计算机视觉中的自控机制,因为它是变压器的基本组成部分。在本文的结尾,我们讨论了挑战,并为愿景变压器提供了一些进一步的研究方向。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
123+阅读 · 2020年9月8日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
0+阅读 · 2021年10月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2017年7月25日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
123+阅读 · 2020年9月8日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关论文
Arxiv
0+阅读 · 2021年10月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员