CVPR 2022 & NTIRE 2022冠军方案!MST:多快好省的高光谱图像重建

2022 年 4 月 23 日 CVer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:phantom |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/501101943


本文介绍我们近期的两篇文章 MST 与 MST++,其中MST已被 CVPR 2022 接收,MST++ 被 CVPRW 2022 接收,并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。


图1 MST 与 MST++ 与 SOTA 算法的对比图。横轴代表计算量,纵轴代表性能,圆半径代表参数量。


先验货,MST 与 MST++ 与 SOTA 方法对比如图1所示,很轴为计算量,纵轴为性能,圆半径代表参数量。MST 与 MST++ 占据了左上角,参数量也非常小,实现多快好省的高光谱图像重建。


文章一:《Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction》

paper:Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction

论文:arxiv.org/abs/2111.07910

code:https://github.com/caiyuanhao1998/MST


文章二:《MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction》

paper:https://arxiv.org/abs/2204.07908

code:

https://github.com/caiyuanhao1998/MST-plus-plus

1. 高光谱图像简介

高光谱图像(Hyperspectral Image, HSI)指的是光谱分辨率在 10^-2 λ数量级范围内的光谱图像。相较于常规的RGB图像而言,高光谱图像有着更多的波段(即通道数更多如31,28)来更加准确全面的描述被捕获场景的特性。在很多时候,从RGB图像中无法观测出异常,但是从高光谱图像的某一个波段中却能一眼看出问题所在。这么说可能不太好理解,举个例子,比如在深夜,如果直接看RGB图像的话,可能是一片漆黑,但是如果通过红外夜视仪的话,就能很清晰看到发热的活物。这个红外夜视仪捕获的就是红外光谱图像。也正因为光谱图像有着这样的特性,它被广泛地应用于目标检测与追踪,图像识别,遥感,医疗影像等领域。


图2 高光谱图像的应用场景举例


那么既然高光谱图像那么有用,我们应该如何获取它呢?传统的成像设备采用光谱仪对成像场景进行空间域通道维度的扫描,费时费力,不适用于运动场景。近些年,科学家们专门设计了快照压缩成像(Snapshot Compressive Imaging,SCI)系统来解决这一问题。在诸多SCI系统当中,编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging)系统脱颖而出,成为捕获获取光谱图像的重要手段,其结构如图2所示


图3 编码孔径快照光谱成像系统示意图


CASSI系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制,然后通过一个三棱镜进行色散后在相机上生成一个二维的快照估计图(compressive measurement)。那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI的复原算法,我们将这样的方法记为SCI-to-HSI。

这种方法好不好?好,但是还不够好。为什么呢?因为CASSI的设备很贵,价格在 10,000 到 100,000 美金。不过它有一个优势就是,存储的时候只需要存储二维的measurement,这可以极大降低存储与传输数据的成本。

那么,聪明的朋友可能就会发现了,既然本质上RGB和HSI都是同一场景的不同光谱通道成像,既然深度学习模型如 CNN,Transformer 又无所不能,那我何不直接学习一个从 RGB 到 HSI 的映射呢?RGB 相机遍地都是,RGB 图像遍地都是,RGB-to-HSI 的映射要是学得好,那岂不是点石成金,想啥来啥?何必还要破费买CASSI系统?没有中间商赚我几万美金的差价,这简直是零糖零卡零负担。正是基于 RGB-to-HSI 的构想,NTIRE 举办了 Spectral Reconstruction Challenge 并提供了相应的数据集。

我们的两个工作 MST 与 MST++ 就分别针对 SCI-to-HSI 与 RGB-to-HSI 设计了历史上第一个用于高光谱图像重建的 Transformer。


2. 高光谱图像复原算法

2.1 MST 用于 SCI-to-HSI 的高光谱图像复原

针对从 2D measurement 到 3D HSI cube 的光谱图像复原,我们提出了 Mask-guided Spectral-wise Transformer (MST),如图3 (a) 所示。MST是一个对称的 U 形的网络,其基本组成单元为 Mask-guided Self-Attention Block (MSAB), 如图3 (b) 所示。MSAB 中最重要的就是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。MSAB 包含两个 Layer Normalization (LN),一个 MS-MSA 和一个前向神经网络 Feed Forward Network (FFN),如图3 (c) 所示。

图4 MST的结构示意图

其中的 MS-MSA 又可以拆解为两部分,即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。为了避免大家觉得枯燥无味,这里就不给大家看比较琐屑的公式了。下面我会用语言大概介绍一下,相关细节请参照原文。MS-MSA的结构如图5所示


图5 MS-MSA结构示意图


S-MSA:其中,S-MSA的机构示意图如图5 (c1) 所示。通常来说,之前的Transformer将一个 pixel vector 作为一个token。然而,高光谱具有空间稀疏而通道上高度相似的特性,因此,计算空间维度的 self-attention 会比计算光谱通道维度的 self-attention 更加低效。基于这样一个motivation,S-MSA 将每一个光谱通道的特征图作为一个 token 去计算 self-attention。


MM:在 CASSI 成像过程中,我们注意到编码孔径掩膜(mask)被用来进行调制,而 mask 上各个位置的透光率不同,导致了生成 measurement 上的各个位置的保真度不同。因此为了获得保真度随空间位置变化的信息,我们将 mask 作为输入生成 Mask Attention Map,然后作用在 S-MSA 的 value 上,如图5 (c2) 所示。

我们通过改变 MST 中各层 block 的数量 ( N1 ,N2,N3)来得到一簇 MST family,他们是 MST-S (2, 2, 2), MST-M (2, 4, 4), MST-L (4, 7, 5)。


定量对比:在 KAIST 数据集上的效果如表1 所示。参数量-计算量-性能对比如表2 所示,可以看到,我们的MST采用更少的参数量与计算量,取得了更好的效果。画成对比图的话就如图1 所示。MST 占据了左上角。


表1 MST 与 SOTA 方法在 KASIT 数据集上的性能内对比


表2 MST 与 部分开源 SOTA 方法的性能-参数量-计算量对比


定性对比:在 simulation 和 real 数据上的定性对比分别如图6和图7所示。MST恢复出更多的光谱细节,同时从光谱曲线上来看,也取得了更高的 consistency, 更印证了我们方法的优越性。


图6 MST 与 SOTA 方法在 simulation 数据上的定性对比图
图7 MST 与 SOTA 方法在 real 数据上的定性对比图


2.2 MST++ 用于 RGB-to-HSI 的高光谱图像复原

MST++ 是 MST 的后续工作,其全称为 Multi-stage Spectral-wise Transformer。顾名思义,这很好理解,就是将MST 的 MM 去掉,然后改成首尾串联的多阶段网络。输入变成 RGB 图像,输出还是 HSI。其框架如图8所示。


图8 MST++ 算法结构示意图


定量对比:MST++ 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的对比如表3所示。我们的MST++ 依旧使用更少的计算量和参数量,达到了更高的性能指标,同时取得了 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。


表3 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的性能对比


定性对比:MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图9和图10所示。


图9 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比
图10 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比


目前为止,从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline,我们将我们的方法连同 10 个 SOTA 复原算法,预训练模型,都开源在了MST++,希望推动这个方向的发展。

3. 小结

针对从快照压缩估计图(measurement)和从常规图像(RGB)重建出高光谱图像,我们分别提出了领域内第一个基于Transformer的方法,MST 与 MST++,以更少的参数量,更低的计算量取得了更高的性能。同时,我们的MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。



ICCV和CVPR 2021论文和代码下载


后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信: CVer6666,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

登录查看更多
1

相关内容

12篇顶会论文,深度学习时间序列预测经典方案汇总!
专知会员服务
51+阅读 · 2022年4月11日
专知会员服务
13+阅读 · 2021年9月23日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
31+阅读 · 2021年7月26日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
专知会员服务
25+阅读 · 2021年3月7日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
CVPR 2022 · NTIRE 2022 · 多快好省的高光谱图像重建
CVPR NTIRE 2022|双目超分辨率挑战赛开赛
极市平台
0+阅读 · 2022年1月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
58+阅读 · 2021年11月15日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
12篇顶会论文,深度学习时间序列预测经典方案汇总!
专知会员服务
51+阅读 · 2022年4月11日
专知会员服务
13+阅读 · 2021年9月23日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
31+阅读 · 2021年7月26日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
专知会员服务
25+阅读 · 2021年3月7日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员