Single image super-resolution task has witnessed great strides with the development of deep learning. However, most existing studies focus on building a more complex neural network with a massive number of layers, bringing heavy computational cost and memory storage. Recently, as Transformer yields brilliant results in NLP tasks, more and more researchers start to explore the application of Transformer in computer vision tasks. But with the heavy computational cost and high GPU memory occupation of the vision Transformer, the network can not be designed too deep. To address this problem, we propose a novel Efficient Super-Resolution Transformer (ESRT) for fast and accurate image super-resolution. ESRT is a hybrid Transformer where a CNN-based SR network is first designed in the front to extract deep features. Specifically, there are two backbones for formatting the ESRT: lightweight CNN backbone (LCB) and lightweight Transformer backbone (LTB). Among them, LCB is a lightweight SR network to extract deep SR features at a low computational cost by dynamically adjusting the size of the feature map. LTB is made up of an efficient Transformer (ET) with a small GPU memory occupation, which benefited from the novel efficient multi-head attention (EMHA). In EMHA, a feature split module (FSM) is proposed to split the long sequence into sub-segments and then these sub-segments are applied by attention operation. This module can significantly decrease the GPU memory occupation. Extensive experiments show that our ESRT achieves competitive results. Compared with the original Transformer which occupies 16057M GPU memory, the proposed ET only occupies 4191M GPU memory with better performance.


翻译:单一图像超分辨率任务随着深层学习的发展而取得了长足的进步。然而,大多数现有研究都侧重于建立一个更复杂的神经网络,其层数众多,计算成本和存储存储量都很高。最近,随着变异器在 NLP 任务中取得辉煌的成果,越来越多的研究人员开始探索变异器在计算机视觉任务中的应用。但是,由于计算成本高,而且视觉变异器的GPU内存占用率高,因此网络的设计不会太深。为了解决这个问题,我们建议建立一个新的高效超级分辨率变异器(ESRT),用于快速和准确的图像超分辨率解析。ESRT是一个混合式变异器,其中以CNNS为基础的SR网络首先在前部设计了深度的深度功能。具体地说,有两种骨干为ESRT:轻度CN骨干(LCB)和轻度变压变压器骨干(LTB),其中,LCB是一个较轻的SR网络,通过动态调整地计算成本来提取深度的SR特性。LTBTB将原始图的大小改成一个高效的变异性变压(ET) 和智能变异式的内存操作(ET) 。

1
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
相关论文
Arxiv
3+阅读 · 2021年10月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
3+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员