CVPR 2022 | 华为诺亚&北大提出量子启发MLP，性能超越Swin Transfomer

2022 年 3 月 23 日 PaperWeekly

©作者 | 机器之心编辑部

来源 | 机器之心

来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。

近年来，计算机视觉领域的新型架构层出不穷，包括视觉 Transformer、MLP 等，它们在很多任务上都取得了超越 CNN 的性能，受到广泛关注。其中，视觉 MLP 具有极其简单的架构，它仅由多层感知器（MLP）堆叠而成。与 CNN 和 Transformer 相比，这些简洁的 MLP 架构引入了更少的归纳偏置，具有更强的泛化性能。

然而，现有视觉 MLP 架构的性能依然弱于 CNN 和 Transformer。来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 架构，在 ImageNet 分类、COCO 检测、ADE20K 分割等多个任务上取得了 SOTA 性能。

论文链接：

https://arxiv.org/abs/2111.12294

PyTorch代码：

https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch

MindSpore代码：

https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp

Wave-MLP

该研究受量子力学中波粒二象性的启发，将 MLP 中每个图像块 (Token) 表示成波函数的形式，从而提出了一个新型的视觉 MLP 架构——Wave-MLP，在性能上大幅超越了现有 MLP 架构以及 Transformer。

量子力学是描述微观粒子运动规律的物理学分支，经典力学可被视为量子力学的特例。量子力学的一个基本属性是波粒二象性，即所有的个体（比如电子、光子、原子等）都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性，幅值表示一个波可能达到的最大强度，相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波（比如，德布罗意波）的形式来表示，可以更完备地描述微观粒子的运动状态。

那么，对于视觉 MLP 中的图像块，能不能也把它表示成波的形式呢？该研究用幅值表达每个 Token 所包含的实际信息，用相位来表示这个 Token 当前所处的状态。在聚集不同 Token 信息的时候，不同 Token 之间的相位差会调制它们之间的聚合过程（如图 3 示）。考虑到来自不同输入图像的 Token 包含不同的语义内容，该研究使用一个简单的全连接模块来动态估计每个 Token 的相位。对于同时带有幅度和相位信息的 Token，作者提出了一个相位感知 Token 混合模块（PATM，如下图 1 所示）来聚合它们的信息。交替堆叠 PATM 模块和 MLP 模块构成了整个 Wave-MLP 架构。

图1. Wave-MLP 架构中的一个单元

相比现有的视觉 Transformer 和 MLP 架构，Wave-MLP 有着明显的性能优势（如下图 2 所示）。在 ImageNet，Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率，比相似计算代价的 Swin-T 高 1.3 个点。此外，Wave-MLP 也可以推广到目标检测和语义分割等下游任务，展现出强大的泛化性能。

图2. Wave-MLP 与现有视觉 Transformer、MLP 架构的比较

1.1 用波表示 Token

在 Wave-MLP 中，Token 被表示为同时具有幅值和相位信息的波：

其中是满足的虚数单位，表示绝对值运算，是逐元素乘法。幅值是实值的特征，表示每个 Token 所包含的内容。表示相位，即 Token 在一个波周期内的当前位置。

两个 Token 之间的相位差对它们的聚合过程有很大影响（如下图 3 所示）。当两个 token 具有相同的相位时，它们会相互增强，得到幅值更大的波（图 3（b））；当两个 token 相位相反时，他们合成的波将相互减弱。在其他情况下，它们之间的相互作用更加复杂，但仍取决于相位差（图 3（a））。经典方法中使用实值表示 token 的，这实际上是上式的一个特例。

图3. 两个具有不同相位的波的聚合过程。左侧表示两个波在复数域中的叠加，右侧表示它们在实轴上的投影随着相位的变化。虚线表示两个初始相位不同的波，实线是他们的叠加。

1.2 相位感知的 Token 聚合

公式（1）中包含幅值和相位两项，幅值类似于实值特征，可以采用标准的 Channel-FC 生成：

对于相位，可以使用多种方式来估计。为了使得相位可以捕获每个输入的特定属性，该研究使用一个可学的估计模块来生成相位。在获得幅值和相位之后，可以根据公式（1）得到 Token 的波函数表示图片。同时，公式（1）可以采用欧拉公式展开成连个实值向量拼接的形式：

表示不同的 Token 波函数会通过一个 Token-FC 聚合起来，得到复数域的输出：

类似于量子计算中的测量过程，复数域的需要映射到实数域里才能得到有意义的输出值。将实部和虚部做按照一定的权重进行求和，得到模块的输出：

在视觉 MLP 中，该研究构建了一个相位感知模块（PATM，图 1）来完成 Token 聚合的过程。交替堆叠 PATM 模块和 channel-mixing MLP 组建了整个 WaveMLP 架构。

实验结果

该研究在大规模的分类数据集 ImageNet, 目标检测数据集 COCO 和语义分割数据集 ADE20K 上都进行了大量实验。

ImageNet 上图像分类的结果如表 1，表 2 所示：相比于现有的 Vision MLP 架构和 Transformer 架构，WaveMLP 都取得了明显的性能优势。

在下游目标检测、语义分割等任务中，Wave-MLP 同样表现出更优的性能。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

量子启发MLP

关注 0

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

TPAMI 2022｜华为诺亚最新视觉Transformer综述

专知会员服务

56+阅读 · 2022年2月24日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

专知会员服务

30+阅读 · 2021年10月13日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR2021】双图层实例分割，大幅提升遮挡处理性能

专知会员服务

18+阅读 · 2021年5月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVer

0+阅读 · 2022年4月10日

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

极市直播回放丨第90期-CVPR 2022 唐业辉：量子启发的新型视觉主干模型WaveMLP

极市平台

3+阅读 · 2022年4月1日

极市直播｜CVPR 2022-唐业辉：量子启发的新型视觉主干模型WaveMLP

极市平台

1+阅读 · 2022年3月22日

CVPR 2022 | 超越Swin！华为诺亚&北大提出Wave-MLP：视觉新主干网络

CVer

0+阅读 · 2022年3月22日

CVPR 2022 | 图像也是德布罗意波！华为诺亚&北大提出量子启发MLP，性能超越Swin Transfomer

极市平台

0+阅读 · 2022年3月16日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

机器之心

0+阅读 · 2021年12月15日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

极市平台

0+阅读 · 2021年10月21日

微软&中山大学开源超强的视觉位置编码，涨点显著

夕小瑶的卖萌屋

0+阅读 · 2021年8月10日

天发舰收高频雷达展宽海杂波的抑制和目标检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像中复杂形变物体的外轮廓搜索方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

纳米MOS结构输运性质的第一性原理研究

国家自然科学基金

0+阅读 · 2013年12月31日

金属磁性材料的拓扑结构与电磁性能

国家自然科学基金

0+阅读 · 2013年12月31日

混沌信号的自适应分解方法研究及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

多铁TbMn1-xFexO3晶体材料的制备与表征

国家自然科学基金

0+阅读 · 2012年12月31日

基于方向变换与稀疏优化的遥感图像压缩理论与方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于随机缺陷的版图布线优化算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

拓扑绝缘体的第一性原理研究

国家自然科学基金

0+阅读 · 2011年12月31日

视角无关的动作识别与行为建模方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

NFormer: Robust Person Re-identification with Neighbor Transformer

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

VSA: Learning Varied-Size Window Attention in Vision Transformers

Arxiv

0+阅读 · 2022年4月18日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Does Momentum Help? A Sample Complexity Analysis

Arxiv

0+阅读 · 2022年4月17日

VDTR: Video Deblurring with Transformer

Arxiv

0+阅读 · 2022年4月17日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Arxiv

10+阅读 · 2018年3月29日

VIP会员