【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器

2021 年 10 月 20 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

Visual Saliency Transformer: 视觉显著性转换器

刘念

^{1*}

, 张妮

^{2*}

, 宛开元

^{2}

,邵岭

^{1}

, 韩军伟

^{2＃}

^{1}

起源人工智能研究院，

^{2}

西北工业大学自动化学院

ICCV 2021

撰稿人：张妮，刘念

#通讯作者：韩军伟（junweihan2010@gmail.com）

推荐理事：林宙辰

原文标题：Visual Saliency Transformer

原文链接： https://arxiv.org/abs/2104.12099

原文代码链接: https://github.com/nnizhang/VST

◆ ◆ ◆ ◆

摘要

目前先进的显著性目标检测方法在很大程度上依赖于卷积神经网络架构。而我们选择从序列到序列的角度来重新思考这个任务，通过建模长范围依赖来进行显著性预测，这是无法用卷积实现的。具体来说，我们为RGB和RGB-D显著性目标检测这两个任务提出了一个基于Transformer的统一模型，命名为Visual Saliency Transformer (VST)。它将原始图片裁剪成图片块后作为输入，接着利用Transformer在图片块之间传播全局上下文信息。不同于Vision Transformer (ViT)方法里的传统架构，我们在Transformer架构下利用多层级tokens融合方法和一个新提出的token上采样方法，来获得高分辨率的显著性检测结果。我们还设计了一个基于token的多任务解码器，它可以通过两个任务相关的tokens和一个新提出的patch-task-attention来同时进行显著性检测和边缘检测。我们提出的VST模型在RGB和RGB-D显著性检测两个任务上都超过了先前的方法。更加重要的是，我们提出的架构不仅为显著性检测领域提供了一个全新的视角，而且还为基于Transformer架构的密集型预测任务提供了一个新的范式。

背景

目前基于卷积神经网络架构的先进的显著性检测方法虽然已经得到了很好的效果，但是它们在学习全局信息方面还存在一定的缺陷。而对于显著性目标检测来说，全局上下文信息和全局对比度是非常重要的。然而，由于卷积操作是在局部滑动窗口中提取特征，因此以前基于卷积神经网络架构的方法很难去探索关键的全局信息。虽然有一些方法利用全连接层、全局池化层和非局部模块来整合全局信息，但是它们只是在特定的几层被使用而且依旧保持着标准的卷积神经网络架构形式。

在机器翻译任务中，Transformer方法[1]可以探索单词之间的全局长范围依赖信息。其核心思想是自注意力机制（self-attention），即利用查询-键来建模不同位置之间的相关性。Transformer方法[1]在编码器和解码器中多次堆叠自注意力层，从而在每一层都实现了全局长范围依赖建模。因此，将Transformer引入显著性检测来探索全局长范围依赖是非常可行的。

至此，本文首次从序列到序列的角度来重新思考显著性检测任务，并为RGB和RGB-D显著性检测提出了一个统一的模型，命名为Visual Saliency Transformer。我们延续ViT[2]的方法将图片裁剪成图片块，然后利用Transformer模型来在图片块之间探索全局长范围依赖。然而，将ViT[2]应用到显著性检测上并不容易。一方面，如何利用纯transformer来解决密集型任务是一个需要解决的问题；另一方面，ViT[2]将图片处理成非常粗糙的尺寸，如何将ViT适应到显著性检测任务上来获取高分辨率的预测结果也是需要解决的。

为了解决第一个问题，我们设计了一个基于token的多任务解码器，它通过引入任务相关的tokens来学习决策。接着，我们提出了一个新的patch-task-attention机制来生成密集预测结果，这为密集型预测任务中使用transformer提供了新的范式。由于受到先前利用边缘检测来提高显著性检测性能的方法的启发，我们设计了多任务解码器，即通过引入显著性token和边缘token来同时进行显著性检测和边缘检测。该策略通过简单地学习与任务相关的tokens来简化多任务预测的工作流程，从而在获得更好的结果的同时降低了计算成本。为了解决第二个问题，我们受到Tokens-to-Token (T2T) 转化算法[3]的启发，提出了一个新的RT2T (反向T2T)转化算法。该算法可以将每一个token扩展为多个子token来实现对tokens的上采样。我们于是用所提的RT2T转化算法逐步对patch tokens进行上采样并将它们与编码器中的低层级的tokens进行融合来获得最终的全分辨率的显著图。此外，我们还使用了跨模态Tansformer来深入探究RGB-D显著性检测中多模态信息之间的相互作用。最终，我们提出的VST模型在参数量和计算成本相当的情况下，在RGB和RGB-D显著性检测上都超过了现有的先进方法。

方法描述

图 1 VST整体网络架构图

VST的整体框架如图1所示。首先，它用编码器从裁剪后的图片块序列中去生成多层级的tokens。然后，利用转化器将patch tokens转化到解码器空间，同时对RGB-D的数据进行多模态信息融合。最后，解码器通过提出的与任务相关的tokens和patch-task-attention来同时预测显著图和边缘图，期间还用到了RT2T算法来对patch tokens进行上采样。

一、编码器

先前基于卷积神经网络的显著性检测方法通常都采用预训练好的图像分类模型来作为编码器来提取图片特征。与它们类似，我们采用预训练模型T2T-ViT[3]作为我们的编码器。有关细节可参考T2T-ViT原文[3]。对于RGB显著性检测，我们用一个单一的transformer编码器来提取RGB patch tokens $T_{r}^{\varepsilon }$ ；对于RGB-D显著性检测，我们采用双流结构的transformer编码器来提取RGB patch tokens $T_{r}^{\varepsilon }$ 和深度 patch tokens $T_{d}^{\varepsilon }$ 。

二、转化器

我们在编码器和解码器之间插入一个转化器，用来将编码器得到的patch tokens从编码器空间转化到解码器空间。

1.RGB-D转化器

对于RGB-D显著性检测，我们设计了一个跨模态Transformer（CMT）来融合从编码器中提取到的RGB patch tokens $T_{r}^{\varepsilon }$ 和深度patch tokens $T_{d}^{\varepsilon }$ 。具体来说，我们修改了标准的self-attention层[1]来传播RGB图像和深度数据之间的长范围跨模态依赖，具体方案如下：

首先，类似于标准的self-attention层，我们通过三个线性投影操作将 $T_{r}^{\varepsilon }$ 转化成查询 $Q_{r}$ , 键 $K_{r}$ 和值 $V_{r}$ 。同时用另外三个线性投影操作将 $T_{d}^{\varepsilon }$ 也进行转化，得到 $Q_{d}$ 、 $K_{d}$ 和 $V_{d}$ 。

接着，我们计算来自一种模态的查询和另一种模态的键之间的attention，然后和值加权求和得到最终的输出，整个过程可表示成：

$\mathrm{Attention}\left ( Q_{r},K_{d},V_{d} \right )=\mathrm{softmax}\left ( Q_{r},K_{d}^{T}/\sqrt{d} \right )V_{d}$

$\mathrm{Attention}\left ( Q_{d},K_{r},V_{r} \right )=\mathrm{softmax}\left ( Q_{d},K_{r}^{T}/\sqrt{d} \right )V_{r}$

经过上述流程后，我们又给RGB patch tokens和深度patch tokens分别应用一个标准的transformer层。最后，我们将获得的RGB patch tokens和深度patch tokens级联起来并投影得到最终转化后的patch tokens $T^{c}$ 。

2. RGB 转化器

对于RGB显著性检测，我们直接在RGB patch tokens $T_{r}^{\varepsilon }$ 上应用标准的transformer层来获得转化后的patch tokens $T^{c}$ 。

三、解码器

我们设计的解码器主要包括token上采样、多级别token融合和基于token的多任务预测三个部分。

1.Token上采样

假设H和W是图片的高和宽，我们得到的 $T^{c}$ 的长度相对较小，只有 $\mathit{H}/16\times \mathit{W}/16$ 。所以我们认为直接用 $T^{c}$ 来预测显著图无法得到满意的结果。因此，我们选择先上采样 $T^{c}$ 然后再进行预测。大多数基于卷积神经网络的方法通常采用双线性插值来恢复特征图的尺寸，而我们在transformer的架构下设计了一种新的token上采样方法。如图2(a)所示，T2T模块[3]将邻近的tokens整合从而逐步地缩减tokens的长度。受到T2T的启发，我们提出了一种RT2T（反向T2T）的转换，通过将每个token扩展成多个子token来达到上采样tokens的目的，如图2(b)所示。

图 2.(a) T2T 模块[3] (b) 本文所提出的RT2T上采样方法

具体来说，我们首先使用一个线性投影将patch tokens的维度从 $c$ 扩展到 $ck^{2}$ 。接下来，类似于T2T[3]中的soft split操作，我们将每一个token看作成一个 $\mathrm{k}\times \mathrm{k}$ 图像块，相邻的patches之间重叠为 $s$ ，zero-padding为 $p$ ，即可将tokens折叠（fold）为图像。最后，我们将图像重新reshape成tokens，即得到上采样后的tokens。

2.多级别token融合

由于目前很多显著性检测方法已经证明了多层级特征融合是有效的，因此受到这些方法的启发，我们也利用来自编码器中低层级的tokens，即 $T_{1}$ 和 $T_{2}$ ，来提供准确的局部结构信息。对于RGB和RGB-D显著性检测，我们都只使用RGB编码器得到的低层级tokens。具体来说，我们用级联和线性投影来逐步地将 $T_{1}$ 和 $T_{2}$ 和上采样过后的tokens进行融合。接着采用一个transformer层来获得decoder tokens $T_{i}^{\mathcal{D}}$ 。整个过程可表示成：

[,] 表示沿着token的嵌入维度进行级联操作，“Linear”表示级联后采用的线性投影来降低维度。其中 $\mathrm{i}=2,1$ 。

3.基于token的多任务预测

目前一些纯transformer方法[2,3]通过给patch tokens增加一个class token来进行图片分类。受到它们的启发，我们也利用与任务相关的tokens来预测结果。然而，我们无法直接在任务相关token上使用MLP来获得密集预测的结果。因此，我们提出patch-task-attention来通过探索patch tokens和任务相关token之间的关系进行显著性检测。另外，受到显著性模型中广泛使用的边缘检测的启发，我们还采用多任务学习策略来同时进行显著性检测和边缘检测，从而用边缘检测来帮助提升显著性检测的性能。

为此，我们设计了两个与任务相关的tokens, 即显著性token $t_{s}$ 和边缘token $t_{b}$ 。在每一个解码器层级，我们将显著性token $t_{s}$ 和边缘token $t_{b}$ 与patch tokens $T_{i}^{\mathcal{D}}$ 串联在一起，接着利用transformer层来处理它们。如此一来，这两个任务相关的tokens可以通过与patch tokens的交互中学习到与图像相关的显著性检测和边缘检测模式。之后，我们将更新后的patch tokens作为输入，结合所提出的token上采样和多层级token融合的方法来得到上采样后的patch tokens $T_{i-1}^{\mathcal{D}}$ 。接下来，我们在下一个层级 $\mathrm{i}-1$ 上重新利用已经更新后的 $t_{s}$ 和 $t_{b}$ 去更新它们和 $T_{i-1}^{\mathcal{D}}$ 。我们重复上述过程直到到达最后一个解码器层级。

为了得到显著性和边缘预测结果，我们在最后一个解码器中对patch tokens $T_{1}^{\mathcal{D}}$ 与显著性token $t_{s}$ 和边缘token $t_{b}$ 之间执行patch-task-attention。对于显著性预测，我们首先将 $T_{1}^{\mathcal{D}}$ 转化成查询 $Q_{s}^{D}$ ，将 $t_{s}$ 转化成键 $K_{s}$ 和值 $V_{s}$ 。类似地，对于边缘检测，我们将 $T_{1}^{\mathcal{D}}$ 转化成查询 $Q_{b}^{D}$ ，将 $t_{b}$ 转化成键 $K_{b}$ 和值 $V_{b}$ 。接下来，我们采用patch-task-attention去获得与任务相关的patch tokens：

这里在计算attention时用sigmoid激活是因为只存在一个键。

因为 $T_{s}^{\mathcal{D}}$ 和 $T_{b}^{\mathcal{D}}$ 是1⁄4尺寸的，所以我们再用一次RT2T方法将它们上采样到全尺寸。最后，我们分别应用两个线性变换和sigmoid激活将它们投影到[0, 1]之间，之后reshape成2D的显著性图和边缘图，即为最终输出的结果。

实验结果

对于RGB显著性检测任务，我们在6个RGB显著性检测数据集上验证了我们的VST模型，分别是ECSSD[4]、HKU-IS[5]、PASCAL-S[6]、DUT-O[7]、SOD[8]和DUTS[9]。对于RGB-D显著性检测任务，我们在9个RGB-D显著性检测数据集上进行了验证，分别是STERE[10]、LFSD[11]、RGBD135[12]、SSD[13]、NJUD[14]、NLPR[15]、DUTLF-Depth[16]和ReDWeb-S[17]。表1和表2分别展示了RGB和RGB-D显著性检测的定量结果。实验结果表明在RGB和RGB-D显著性检测两个任务上，我们的VST模型在参数量和计算成本相当的情况下，性能超过了之前所有基于卷积神经网络的方法。此外，图3展示了定性结果的比较。可以看出我们提出的VST在极具挑战的场景下（如大目标、复杂背景、前背景相似等）可以精确地检测出显著性物体。

表 1 本文VST和其他12个SOTA RGB 显著性方法在6个数据库上的定量比较

表 2 本文VST和其他14个SOTA RGB-D 显著性方法在9个数据库上的定量比较

图 3 与SOTA RGB-D（左）和RGB（右）显著性方法的定性比较

参考文献

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998– 6008, 2017.

[2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2020.

[3] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, and Shuicheng Yan. Tokensto-token vit: Training vision transformers from scratch on imagenet. In ICCV, 2021.

[4] Qiong Yan, Li Xu, Jianping Shi, and Jiaya Jia. Hierarchical saliency detection. In CVPR, pages 1155–1162, 2013.

[5] Guanbin Li and Yizhou Yu. Visual saliency based on multiscale deep features. In CVPR, pages 5455–5463, 2015.

[6] Yin Li, Xiaodi Hou, Christof Koch, James M Rehg, and Alan L Yuille. The secrets of salient object segmentation. In CVPR, pages 280–287, 2014.

[7] Chuan Yang, Lihe Zhang, Huchuan Lu, Xiang Ruan, and Ming-Hsuan Yang. Saliency detection via graph-based manifold ranking. In CVPR, pages 3166–3173, 2013.

[8] Vida Movahedi and James H Elder. Design and perceptual validation of performance measures for salient object segmentation. In CVPR Workshops, pages 49–56, 2010.

[9] Lijun Wang, Huchuan Lu, Yifan Wang, Mengyang Feng, Dong Wang, Baocai Yin, and Xiang Ruan. Learning to detect salient objects with image-level supervision. In CVPR, pages 136–145, 2017.

[10] Yuzhen Niu, Yujie Geng, Xueqing Li, and Feng Liu. Leveraging stereopsis for saliency analysis. In CVPR, pages 454–461, 2012.

[11] Nianyi Li, Jinwei Ye, Yu Ji, Haibin Ling, and Jingyi Yu. Saliency detection on light field. In CVPR, pages 2806–2813, 2014.

[12] Yupeng Cheng, Huazhu Fu, Xingxing Wei, Jiangjian Xiao, and Xiaochun Cao. Depth enhanced saliency detection method. In Conference on Internet Multimedia Computing and Service, pages 23–27, 2014.

[13] Chunbiao Zhu and Ge Li. A three-pathway psychobiological framework of salient object detection using stereoscopic technology. In ICCV Workshops, pages 3008–3014, 2017.

[14] Ran Ju, Ling Ge, Wenjing Geng, Tongwei Ren, and Gangshan Wu. Depth saliency based on anisotropic centersurround difference. In ICIP, pages 1115–1119, 2014.

[15] Houwen Peng, Bing Li, Weihua Xiong, Weiming Hu, and Rongrong Ji. Rgbd salient object detection: A benchmark and algorithms. In ECCV, pages 92–109, 2014.

[16] Yongri Piao, Wei Ji, Jingjing Li, Miao Zhang, and Huchuan Lu. Depth-induced multi-scale recurrent attention network for saliency detection. In ICCV, pages 7254–7263, 2019.

[17] Nian Liu, Ni Zhang, Ling Shao, and Junwei Han. Learning selective mutual attention and contrast for rgb-d saliency detection. arXiv preprint arXiv:2010.05537, 2020.