The Transformer architecture has witnessed a rapid development in recent years, outperforming the CNN architectures in many computer vision tasks, as exemplified by the Vision Transformers (ViT) for image classification. However, existing visual transformer models aim to extract semantic information for high-level tasks, such as classification and detection.These methods ignore the importance of the spatial resolution of the input image, thus sacrificing the local correlation information of neighboring pixels. In this paper, we propose a Patch Pyramid Transformer(PPT) to effectively address the above issues.Specifically, we first design a Patch Transformer to transform the image into a sequence of patches, where transformer encoding is performed for each patch to extract local representations. In addition, we construct a Pyramid Transformer to effectively extract the non-local information from the entire image. After obtaining a set of multi-scale, multi-dimensional, and multi-angle features of the original image, we design the image reconstruction network to ensure that the features can be reconstructed into the original input. To validate the effectiveness, we apply the proposed Patch Pyramid Transformer to image fusion tasks. The experimental results demonstrate its superior performance, compared to the state-of-the-art fusion approaches, achieving the best results on several evaluation indicators. Thanks to the underlying representational capacity of the PPT network, it can directly be applied to different image fusion tasks without redesigning or retraining the network.


翻译:近年来,变异器结构经历了快速发展,在许多计算机愿景任务中超过了CNN架构,如图像分类的View变异器(View Trangers)就是例证。然而,现有的视觉变异器模型旨在为高级别任务(如分类和检测)提取语义信息。这些方法忽视了输入图像的空间分辨率的重要性,从而牺牲了相邻像素的当地相关性信息。在本文中,我们建议建立一个Patch Pyramid变异器(PPPT),以有效解决上述问题。具体地说,我们首先设计一个修补变异器,将图像转换成一个补乱序列,对每个补变异器进行变异编码,以提取本地表达。此外,我们建造了一台变异变异器,以便从整个图像中有效地提取非本地信息。在获得一套多尺度、多维度和多角度的原始图像特征后,我们设计了图像重建网络的网络,以确保这些特征能够被重建成原始输入。为了验证效果,我们应用了拟议的Prib Pyrimider变异变变变变异器,对图像的网络进行一些图像变异性测试,在图像的图像变异性工作上显示能力上显示。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
14+阅读 · 2021年8月2日
专知会员服务
29+阅读 · 2021年7月30日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
TextCNN大牛Kim《深度无监督学习句法结构分析》,88页ppt
专知会员服务
28+阅读 · 2021年1月13日
最新《Transformers模型》教程,64页ppt
专知会员服务
275+阅读 · 2020年11月26日
专知会员服务
15+阅读 · 2020年7月27日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
3+阅读 · 2019年9月4日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员