致敬Metaformer！图像超分多尺度注意网络MAN开源：大核分解与注意力机制的巧妙结合

会员服务 ·

致敬Metaformer！图像超分多尺度注意网络MAN开源：大核分解与注意力机制的巧妙结合

2022 年 10 月 20 日 极市平台

↑ 点击蓝字关注极市平台

作者丨Ziyang Li

编辑丨极市平台

极市导读

该工作提出了一种基于 CNN 的多尺度注意力网络 (MAN)，它由多尺度大核注意力 (MLKA) 和门控空间注意力单元 (GSAU) 组成 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：https://arxiv.org/abs/2209.14145

代码地址：https://github.com/icandle/MAN

写在前面

本文基于大核分解和注意机制，提出应用于图像超分的多尺度注意网络MAN。通过可解释的门控空间注意单元来汇总上下文信息，利用多尺度大核注意模块获得丰富注意特征图，并聚合局部-全局信息。本文方法与现有流行方法进行了详细的实验对比，获得了竞争性的对比结果。

问题引入和Motivation简述

图像超分旨在从低分辨率输入重建高分辨输出。然而基于CNN的方法要么通过更大数据集来提高性能，要么引入了更复杂的网络设计，这些无疑都增加了计算成本消耗。

还记得今年2月份出炉的那篇VAN吗，VAN通过详细实验证明了大核的卷积可以被有效分解为三种卷积的组合，分别为：深度卷积、含膨胀的深度卷积、逐点卷积。这里给出VAN的分解示意图：

VAN的作者在文末提到，未来对VAN的改进可能包含多分支或多尺度设计的应用。在本文中，作者等人在图像超分任务中对VAN进行可行性考察，发现了一个很重要的问题：VAN的分解过程中，含膨胀的深度卷积会为超分任务带来“块状伪影（blocking artifacts）”。在损害性能的同时，固定的核大小无法充分局部-全局特征。

综上，作者将多尺度机制与大核注意机制结合来解决上述问题，并采用门控机制校准注意图，避免含膨胀的深度卷积带来的块状伪影。

可行性解释与方法剖析

如图3，作者将所提出的方法称为MAN，共有三种不同颜色的组件：浅层特征提取模块SF（最左侧白色）、深层特征提取模块DF（中间灰色的MAB）、图像重建模块（最右侧）。不难看出MAN的整体框架较简单，核大小为3×3的卷积被用在SF和DF模块，其中级联的MAB用于生成待融合的高频特征，并通过与浅层特征残差连接，生成最终的待恢复特征。整体优化使用了如下常用损失：

作为本文的核心模块，MAB借鉴了MetaFormer的设计风格，由多尺度大核注意（MLKA）模块和门空间注意单元（GSAU）两个组件构成。输入特征顺次经过层归一化、MLKA、GSAU，并添加残差连接保证跨层信息传播。

MLKA详细剖析

如下图所示，MLKA将多尺度思想应用于注意机制，在一定程度上抑制噪声的同时，使注意图拥有了局部-全局信息的依赖。

灰色的PWConv模块代表逐点卷积，用于调整维度，以便后续的逐元素乘法、残差连接等操作。

LKA是MLKA的基础特征提取组件，即图4中绿色、紫色、灰色级联的模块。设定大核尺寸为，由VAN论文提出的理论，大核被分解为：的深度卷积、的含膨胀深度卷积（膨胀率为）、逐点卷积。

为使LKA拥有更丰富的多尺度信息，引入逐组的多尺度机制。如图4的第一个分支，输入特征在经过逐点卷积调整维度后，被均匀的沿通道方向切分为n个组，每个组都应用了不同尺寸的大核分解。在本文中，作者将n设置为3，即使用了三种不同尺寸（7×7、21×21、35×35）的大核进行分解，设置膨胀率分别为{2，3，4}。

尽管此时特征已经获得了局部-全局的解释，但使用深度膨胀卷积带来的“块状伪影”问题不得不重视。因此在分组后，引入门控聚合来动态调整LKA的输出。即图4中最上面的DWConv，在对应组中，与下方深度卷积使用的核尺寸一致，并将该卷积的输出与对应组中LKA的输出做逐元素乘法。作者将这一操作称为门控聚合，在图5的可视化结果中可以明显看到，添加门控聚合后，块状伪影被移除（最下面一行的三幅图像更明显一点），MLKA的结果更为合理。

LKA具有较大的感受野，因为它是对大核的合理分解。门控聚合使用的深度卷积相对来说用于局部的感受野。因此，LKA更倾向于远距离依赖，而门控聚合使用的深度卷积保留了局部细节，二者相乘的结果抑制了块状伪影的生成。

GSAU详细剖析

为进一步增强特征表示，受PVT等方法的启发，作者将简单空间注意（SSA）和门控线性单元（GLU）集成，实现了自适应的门控机制，如下图所示。

输入特征通过逐点卷积进行密集线性变换，在第一个分支中，额外添加了深度卷积来对变换结果加权，两分支的逐元素乘积进一步提升了特征表示，同时在可承受的复杂度内捕获了更丰富的局部依赖。

Large Kernel Attention Tail (LKAT)详细剖析

LKAT在图3右侧，残差连接前被应用。作者沿用以往图像超分中模型的设计范式，将一个简单的LKA应用于网络尾部，用以从提取的特征中进一步总结出更合理的信息，从而提高重建表现。其图示如下：

这里分解的大核尺寸为35×35，膨胀率为4。在LKA两端用逐点卷积调整维度。

实验对比

供于训练的数据集分别为DIV2K和Flicker2K。供于测试的数据集分别为：Set5、Set14、BSD100、Urban100、Manga109。

性能评估指标分别为：峰值信噪比（PSNR），结构相似性指数（SSIM）。

下表为消融研究的结果：

从表中可以看出，以LKA为基础，添加多尺度机制和GSAU都带来了性能提升，多尺度机制引入最多的参数量。

测试结果如下表所示：

可视化结果对比如下：

思考与总结

本文以VAN的研究为理论基础，通过门控机制解决了LKA在超分任务中的“块状伪影”问题，借鉴MetaFormer的设计风格，在多个数据集上取得了更SOTA的性能。

分组处理的思想无疑加快了计算效率，同时又与多尺度机制完美的契合，实现不同尺度信息的有效聚合，是一个非常巧妙的设计。尽管文中使用了多次逐点卷积来调整维度，但整体复杂度仍处于可接受范围内。

感谢大家抽出宝贵的时间来阅读，希望这篇文章能给大家提供一定帮助~

公众号后台回复“ 1024 ”参与程序员节666元现金红包抽奖～

△点击卡片关注极市平台，获取最新CV干货

极市干货

算法竞赛：往届获奖方案总结以及经验详解｜ACCV2022国际细粒度图像分析挑战赛

技术综述： BEV 学术界和工业界方案、优化方法与tricks综述 ｜ PyTorch下的可视化工具（网络结构/训练过程可视化）

极视角动态：极视角与华为联合发布基于昇腾AI的「AICE赋能行业解决方案」｜算法误报怎么办？自训练工具使得算法迭代效率提升50%！

# 极市平台签约作者#

Ziyang Li

知乎：Ziyang Li

东电机器人专业在读，一个努力上进的CVer，一个普普通通的学生。

研究领域：先进传感技术、模式识别、深度学习、机器学习。

希望将路上的收获分享给同样前进的你们，共同进步，一起加油！

作品精选：

CVPR 2022 Oral｜百度&中科院开源新的视觉Transformer：卷积与自注意力的完美结合

性能远超ConvNeXt？浅析谷歌提出的「三合一」transformer模型MaxViT+伪代码分析

ICPR 2022｜3DUNet：卷积+胶囊强强联手，医学图像分割的新良方

投稿方式：

添加小编微信Fengcall（微信号：fengcall19），备注：姓名-投稿

△长按添加极市平台小编

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

多尺度

关注 0

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

专知会员服务

8+阅读 · 2022年3月12日

【CVPR2022】 Dropout在图像超分任务中的重煥新生

专知会员服务

19+阅读 · 2022年3月5日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

【ICCV2021】用于图像复原的动态注意力图学习

专知会员服务

14+阅读 · 2021年9月17日

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR2021】动态区域注意卷积

专知会员服务

21+阅读 · 2021年4月2日

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

手把手教你改进PAN！董超团队开源超大感受野注意力超分方案VapSR

极市平台

0+阅读 · 2022年10月24日

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVer

0+阅读 · 2022年4月10日

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

极市平台

0+阅读 · 2022年4月4日

特征金字塔技术总结

极市平台

0+阅读 · 2022年1月31日

改进YOLOv4！让你的网络涨点！

CVer

0+阅读 · 2022年1月14日

涨点神器！ELSA：增强视觉Transformer的局部自注意力

CVer

0+阅读 · 2021年12月28日

Self-Attention和CNN的优雅集成！清华大学等提出ACmix，性能速度全面提升！

极市平台

0+阅读 · 2021年12月2日

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

详解何恺明团队4篇大作 !（附代码）| 从特征金字塔网络、Mask R-CNN到学习分割一切

数据派THU

11+阅读 · 2018年3月20日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

道地中药温莪术治疗肾纤维化药效机制的代谢组学研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合多尺度稀疏与稠密特征结构的透视不变图像匹配模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意和稀疏表示的行人检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

众核体系架构并行计算模型与算法自适应调优框架研究

国家自然科学基金

1+阅读 · 2012年12月31日

结合灰色建模与多字典稀疏表示的图像超分辨率研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多特征融合穷搜索的快速鲁棒视觉跟踪技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于端元特征提取的高光谱遥感图像压缩

国家自然科学基金

0+阅读 · 2009年12月31日

遥感影像快速反卷积复原处理问题研究

国家自然科学基金

0+阅读 · 2008年12月31日

QueryPose: Sparse Multi-Person Pose Regression via Spatial-Aware Part-Level Query

Arxiv

1+阅读 · 2022年12月15日

Mitigating Artifacts in Real-World Video Super-Resolution Models

Arxiv

0+阅读 · 2022年12月14日

Improving Warped Planar Object Detection Network For Automatic License Plate Recognition

Arxiv

0+阅读 · 2022年12月14日

An FPGA-Based Fully Pipelined Bilateral Grid for Real-Time Image Denoising

Arxiv

0+阅读 · 2022年12月14日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

A Memory-Network Based Solution for Multivariate Time-Series Forecasting

Arxiv

13+阅读 · 2018年9月6日

Bilinear Attention Networks

Arxiv

11+阅读 · 2018年5月21日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

MSDNN: Multi-Scale Deep Neural Network for Salient Object Detection

Arxiv

21+阅读 · 2018年1月12日

VIP会员