【速览】NeurIPS 2021 | 双流图像表征网络（Dual-stream Network）

2021 年 12 月 20 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

双流图像表征网络（Dual-stream Network）

Mingyuan Mao

^{1,+}

, Peng Gao

^{3,+}

, Renrui Zhang

^{2,+}

, Honghui Zheng

^{3}

Teli Ma

^{2}

, Yan Peng

^{3}

, Errui Ding

^{3}

, Baochang Zhang

^{1,*}

, Shumin Han

^{3,*}

^{1}

北京航空航天大学,

^{2}

上海AI Lab ,

^{3}

百度视觉技术部

NeurIPS 2021

撰稿人：毛明远

*通讯作者：Baochang Zhang，Shumin Han

推荐理事：林宙辰

原文标题： Dual-stream Network for Visual Recognition

原文链接： https://papers.nips.cc/paper/2021/file/d56b9fc4b0f1be8871f5e1c40c0067e7-Paper.pdf

◆ ◆ ◆ ◆

具有卓越全局表示能力的 Transformer 在视觉任务中取得了有竞争力的结果，但未能考虑输入图像中的高级局部模式信息。在本文中，我们提出了一个通用的双流网络（DS-Net），以充分探索局部和全局模式特征对图像分类的表示能力，通过建立双分辨率特征处理模块，最大程度发挥卷积和自注意力机制优势，同时建立不同分辨率特征间的双向信息流，动态融合局部和全局特征，实现更加丰富的特征表达。对于下游检测和分割任务，提出DS-FPN，引入更加丰富的多尺度信息。DS-Net在分类、检测和分割任务均超越其它算法，刷新领域SOTA。

近期，Transformer开始在视觉领域大放异彩[1, 2]，为防止在全局自注意力机制中丢失局部特征，许多工作在Transformer中加入了卷积操作。区别于之前的工作，DS-Net发现过大的特征图分辨率不仅会大大增加自注意力机制的计算量，而且过于细节的表征并不利于其提取真正的宏观信息，因此，DS-Net提出Intra-scale Propagation模块，建立双分辨率特征图。其中，高分辨率特征图采取类似于ResNet[3]的deep-narrow设计，随着网络的深入，分辨率逐渐降低，形成金字塔结构，并始终用深度可分离卷积来处理；而低分辨率特征图始终保持在7×7的分辨率（对于224×224的输入）用self-attention处理，保证自注意力机制关注于图像的宏观特征。其结构如下图所示。

图 1 DS-Net结构示意图

计算过程如下：卷积分支：记

f_l

的尺寸为

W_i×H_i×C_l

，其中

C_l

等于

\frac{C_{i}}{2}

，

C_i

是输入特征图的通道数。我们对特征

f_l

进行3×3的depth-wise卷积[4]计算来得到局部特征

f_L

：

其中 $W\left ( m,n \right )$ ， $\left ( m,n \right )\epsilon \left ( -1,0,1 \right )$ 表示卷积核 $W\left ( m,n \right )$ 和 $f_{l}\left ( i,j \right )$ 都是 $\frac{C_{i}}{2}$ 维的向量， $\bigodot$ 表示对应元素相乘。通过depth-wise卷积， $f_L$ 便包含了图像的局部细节特征。

自注意力分支：对于低分辨率特征 $f_g$ ，其尺寸为 $\frac{W}{32}\times \frac{H}{32}\times \frac{C_{i}}{2}$ ，我们首先将其拉直成一个序列，序列的长度为 $l_g$ ， $l_g$ 等于 $\frac{WH}{32^{2}}\$ ，序列中每个元素的维度为 $\frac{C_{i}}{2}$ 。这样，序列中的每个元素都相当于一个单词，不再有二维的空间信息，这与卷积是完全不同的。我们对这一序列进行自注意力计算来提取图像的全局特征：

其中，

W_Q

，

W_K

和

W_V

分别表示自注意力机制中生成Queries（队列）、Keys（键值）和Values（值）的矩阵。通过计算

f_Q

和

f_V

的相似度，可以获得聚合特征时

f_g

中不同位置的权重，然后根据这些权重对

f_V

进行加权求和，便可得到图像的全局信息：

此外DS-Net创新性地提出Inter-scale Alignment模块，建立高低分辨率特征之间的双向信息流，基于co-attention机制，实现局部和全局特征间的动态信息交互，得到更加丰富全面的信息表征。实验表明，这种信息交互对于提升网络性能有着重要作用，其计算过程如下：

这样便得到了局部和全局特征的表征向量，下面便可以计算两种模态信息之间的权重关系：

其中

W_{G\rightarrow L}

和

W_{L\rightarrow G}

的尺寸分别为

l_{l}\times l_{g}

和

l_{g}\times l_{l}

，非线性函数Softmax作用在最后一个维度上。

W_{G\rightarrow L}

反映了全局特征图上不同位置的信息对于局部特征图的重要性；同理，全局信息也可以根据

W_{L\rightarrow G}

判断不同位置的局部信息对自己的重要性。与预先设定的固定的融合算法不同，通过这种交叉注意力的计算，这两种特征间的信息传递完全是动态的和可学习的。最终可以通过下式得到融合后的复合特征：

然后重新将 $h_L$ 和 $h_G$ 重新恢复成 $W_{i}\times H_{i}\times \frac{C_{i}}{2}$ 和 $\frac{W}{32}\times \frac{H}{32}\times \frac{C_{i}}{2}$ 的尺寸。这样的双向信息流动有助于进行尺度间特征的对齐，并捕捉其之间的耦合关系，得到信息更加丰富的复合特征。此时便可以将 $h_G$ 上采样，和 $h_L$ 在通道维度上进行像素对像素的拼接，并将拼接好的特征送入一个1×1卷积层以对其通道进行融合。相关特征图可视化如下图所示。

图 2 DeiT和DS-Net注意力权重图和特征图比较

DS-Net目前提出三种大小的模型结构，即DS-Net-T、DS-Net-S和DS-Net-B：

表 1 DS-Net的参数设置

DS-Net在分类、检测和分割任务上明显优于其他算法，实验结果如下：

表 2 ImageNet-1k分类实验

表 3 COCO数据集检测和分割实验

对于下游的检测和分割任务，DS-Net将双分辨率机制引入FPN，建立DS-FPN，以此引入更加丰富的局部和全局信息，实验证明DS-FPN可以有效提高检测器的性能

表 4 FPN和DS-FPN对比实验

双流表征网络DS-Net有效结合了卷积和注意力机制各自的优势，动态地融合了局部和全局特征，在分类检测和分割问题上均呈现出具有优势的结果。

参考文献

[1] Yan H, Li Z, Li W, et al. ConTNet: Why not use convolution and transformer at the same time[OL]. arXiv preprint: 2104.13497, 2021.

[2] Wu H, Xiao B, Codella N, et al. CvT: Introducing Convolutions to Vision Transformers[OL]. arXiv preprint: 2103.15808, 2021.

[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.

[4] Howard A. G, Zhu M, Chen B, D. et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[OL]. arXiv preprint: 1704.04861, 2017.

[5] Radosavovic I, Kosaraju R. P, Girshick R, et al. Designing Network Design Spaces[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 10425-10433.

[6] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[OL]. arXiv preprint: 2012.12877, 2021.

[7] Chu X, Tian Z, Zhang B, et al. Conditional Positional Encodings for Vision Transformers[OL]. arXiv preprint: 2102.10882, 2021.

[8] Yuan L, Chen Y, Wang T, et al. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet[OL]. arXiv preprint: 2101.11986, 2021.

[9] Chen C, Fan Q, Panda R. CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification[C]. In Proceedings of International Conference on Computer Vision, 2021: 357-366.

[10] Han K, Xiao A, Wu E, et al. Transformer in Transformer[OL]. arXiv preprint: 2103.00112, 2021.

[11] Wang W, Xie E, Li X, et al. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions[C]. In Proceedings of the IEEE International Conference on Computer Vision, 2021: 568-578.

[12] Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]. In Proceedings of the IEEE International Conference on Computer Vision, 2021: 10012-10022.