Transformer is a type of deep neural network mainly based on self-attention mechanism which is originally applied in natural language processing field. Inspired by the strong representation ability of transformer, researchers propose to extend transformer for computer vision tasks. Transformer-based models show competitive and even better performance on various visual benchmarks compared to other network types such as convolutional networks and recurrent networks. With high performance and without inductive bias defined by human, transformer is receiving more and more attention from the visual community. In this paper we provide a literature review of these visual transformer models by categorizing them in different tasks and analyze the advantages and disadvantages of these methods. In particular, the main categories include the basic image classification, high-level vision, low-level vision and video processing. The self-attention in computer vision is also briefly revisited as self-attention is the base component in transformer. Efficient transformer methods are included for pushing transformer into real applications on the devices. Finally, we give a discussion about the challenges and further research directions for visual transformers.


翻译:变异器是一种深层神经网络,主要基于最初在自然语言处理领域应用的自我注意机制。受变异器强大代表能力的启发,研究人员提议扩大变异器,以完成计算机视觉任务。以变异器为基础的模型在各种视觉基准方面表现出竞争力,而且与其他网络类型相比,例如变异网络和经常性网络相比,表现更好。随着高性能和人类定义的无感应偏差,变异器越来越受到视觉界的注意。在本文中,我们提供了对这些视觉变异器模型的文献审查,将其分为不同任务,分析这些方法的优缺点。特别是,主要类别包括基本图像分类、高水平的视觉、低水平的视觉和视频处理。计算机视觉的自我注意也得到短暂的重新审视,因为自我注意是变异器的基本组成部分。包含有效的变异器方法,将变异变器推向设备上的实际应用。最后,我们讨论视觉变异器的挑战和进一步的研究方向。

0
下载
关闭预览

相关内容

Transformer替代CNN?8篇论文概述最新进展!
专知会员服务
75+阅读 · 2021年1月19日
华为等发布《视觉Transformer转换器》综述论文,21页pdf
专知会员服务
85+阅读 · 2020年12月25日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2021年3月9日
Arxiv
16+阅读 · 2021年3月2日
Arxiv
23+阅读 · 2020年9月16日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Arxiv
19+阅读 · 2019年4月5日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
16+阅读 · 2018年2月7日
Arxiv
4+阅读 · 2017年4月12日
VIP会员
相关VIP内容
相关资讯
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
相关论文
Arxiv
0+阅读 · 2021年3月9日
Arxiv
16+阅读 · 2021年3月2日
Arxiv
23+阅读 · 2020年9月16日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Image Segmentation Using Deep Learning: A Survey
Arxiv
43+阅读 · 2020年1月15日
Arxiv
19+阅读 · 2019年4月5日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
16+阅读 · 2018年2月7日
Arxiv
4+阅读 · 2017年4月12日
Top
微信扫码咨询专知VIP会员