【速览】NeurIPS 2021 | 双流图像表征网络(Dual-stream Network)

2021 年 12 月 20 日 中国图象图形学学会CSIG


   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~











◆ ◆ ◆ ◆

双流图像表征网络(Dual-stream Network)

Mingyuan Mao   , Peng Gao   , Renrui Zhang   , Honghui Zheng   , 
Teli Ma   , Yan Peng   , Errui Ding   , Baochang Zhang   , Shumin Han   
   北京航空航天大学,    上海AI Lab  百度视觉技术部
NeurIPS 2021
撰稿人:毛明远

*通讯作者:Baochang Zhang,Shumin Han

推荐理事:林宙辰
原文标题: Dual-stream Network for Visual Recognition
原文链接: https://papers.nips.cc/paper/2021/file/d56b9fc4b0f1be8871f5e1c40c0067e7-Paper.pdf









◆ ◆ ◆ ◆


具有卓越全局表示能力的 Transformer 在视觉任务中取得了有竞争力的结果,但未能考虑输入图像中的高级局部模式信息。在本文中,我们提出了一个通用的双流网络(DS-Net),以充分探索局部和全局模式特征对图像分类的表示能力,通过建立双分辨率特征处理模块,最大程度发挥卷积和自注意力机制优势,同时建立不同分辨率特征间的双向信息流,动态融合局部和全局特征,实现更加丰富的特征表达。对于下游检测和分割任务,提出DS-FPN,引入更加丰富的多尺度信息。DS-Net在分类、检测和分割任务均超越其它算法,刷新领域SOTA。
近期,Transformer开始在视觉领域大放异彩[1, 2],为防止在全局自注意力机制中丢失局部特征,许多工作在Transformer中加入了卷积操作。区别于之前的工作,DS-Net发现过大的特征图分辨率不仅会大大增加自注意力机制的计算量,而且过于细节的表征并不利于其提取真正的宏观信息,因此,DS-Net提出Intra-scale Propagation模块,建立双分辨率特征图。其中,高分辨率特征图采取类似于ResNet[3]的deep-narrow设计,随着网络的深入,分辨率逐渐降低,形成金字塔结构,并始终用深度可分离卷积来处理;而低分辨率特征图始终保持在7×7的分辨率(对于224×224的输入)用self-attention处理,保证自注意力机制关注于图像的宏观特征。其结构如下图所示。

图 1 DS-Net结构示意图
计算过程如下:卷积分支:记   的尺寸为   ,其中   等于   ,   是输入特征图的通道数。我们对特征   进行3×3的depth-wise卷积[4]计算来得到局部特征   :

其中   ,   表示卷积核   和   都是   维的向量,   表示对应元素相乘。通过depth-wise卷积,   便包含了图像的局部细节特征。

自注意力分支:对于低分辨率特征   ,其尺寸为   ,我们首先将其拉直成一个序列,序列的长度为   ,   等于    ,序列中每个元素的维度为   。这样,序列中的每个元素都相当于一个单词,不再有二维的空间信息,这与卷积是完全不同的。我们对这一序列进行自注意力计算来提取图像的全局特征:

其中,   ,   和   分别表示自注意力机制中生成Queries(队列)、Keys(键值)和Values(值)的矩阵。通过计算   和   的相似度,可以获得聚合特征时   中不同位置的权重,然后根据这些权重对   进行加权求和,便可得到图像的全局信息:
此外DS-Net创新性地提出Inter-scale Alignment模块,建立高低分辨率特征之间的双向信息流,基于co-attention机制,实现局部和全局特征间的动态信息交互,得到更加丰富全面的信息表征。实验表明,这种信息交互对于提升网络性能有着重要作用,其计算过程如下:
这样便得到了局部和全局特征的表征向量,下面便可以计算两种模态信息之间的权重关系:
其中   和   的尺寸分别为   和   ,非线性函数Softmax作用在最后一个维度上。   反映了全局特征图上不同位置的信息对于局部特征图的重要性;同理,全局信息也可以根据   判断不同位置的局部信息对自己的重要性。与预先设定的固定的融合算法不同,通过这种交叉注意力的计算,这两种特征间的信息传递完全是动态的和可学习的。最终可以通过下式得到融合后的复合特征:

然后重新将   和   重新恢复成   和   的尺寸。这样的双向信息流动有助于进行尺度间特征的对齐,并捕捉其之间的耦合关系,得到信息更加丰富的复合特征。此时便可以将   上采样,和   在通道维度上进行像素对像素的拼接,并将拼接好的特征送入一个1×1卷积层以对其通道进行融合。相关特征图可视化如下图所示。

图 2 DeiT和DS-Net注意力权重图和特征图比较

DS-Net目前提出三种大小的模型结构,即DS-Net-T、DS-Net-S和DS-Net-B:

表 1 DS-Net的参数设置

DS-Net在分类、检测和分割任务上明显优于其他算法,实验结果如下:

表 2 ImageNet-1k分类实验

表 3 COCO数据集检测和分割实验

对于下游的检测和分割任务,DS-Net将双分辨率机制引入FPN,建立DS-FPN,以此引入更加丰富的局部和全局信息,实验证明DS-FPN可以有效提高检测器的性能

表 4 FPN和DS-FPN对比实验
双流表征网络DS-Net有效结合了卷积和注意力机制各自的优势,动态地融合了局部和全局特征,在分类检测和分割问题上均呈现出具有优势的结果。
参考文献

[1] Yan H, Li Z, Li W, et al. ConTNet: Why not use convolution and transformer at the same time[OL]. arXiv preprint: 2104.13497, 2021.

[2] Wu H, Xiao B, Codella N, et al. CvT: Introducing Convolutions to Vision Transformers[OL]. arXiv preprint: 2103.15808, 2021.

[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.

[4] Howard A. G, Zhu M, Chen B, D. et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[OL]. arXiv preprint: 1704.04861, 2017.

[5] Radosavovic I, Kosaraju R. P, Girshick R, et al. Designing Network Design Spaces[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 10425-10433.

[6] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[OL]. arXiv preprint: 2012.12877, 2021.

[7] Chu X, Tian Z, Zhang B, et al. Conditional Positional Encodings for Vision Transformers[OL]. arXiv preprint: 2102.10882, 2021.

[8] Yuan L, Chen Y, Wang T, et al. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet[OL]. arXiv preprint: 2101.11986, 2021.

[9] Chen C, Fan Q, Panda R. CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification[C]. In Proceedings of International Conference on Computer Vision, 2021: 357-366.

[10] Han K, Xiao A, Wu E, et al. Transformer in Transformer[OL]. arXiv preprint: 2103.00112, 2021.

[11] Wang W, Xie E, Li X, et al. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions[C]. In Proceedings of the IEEE International Conference on Computer Vision, 2021: 568-578.

[12] Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]. In Proceedings of the IEEE International Conference on Computer Vision, 2021: 10012-10022.




中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多
0

相关内容

DirectShow是一种由微软公司开发的能够让软件开发者对媒体文件执行各种不同处理的应用程序设计接口。
【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞
专知会员服务
32+阅读 · 2021年5月5日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
18+阅读 · 2021年4月27日
专知会员服务
20+阅读 · 2021年3月9日
【AAAI2021】Graph Diffusion Network提升交通流量预测精度
专知会员服务
52+阅读 · 2021年1月21日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
91+阅读 · 2020年1月10日
【速览】TNNLS 2022 | DualConv:用于轻量级深度神经网络的双卷积核
中国图象图形学学会CSIG
2+阅读 · 2022年4月11日
【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络
中国图象图形学学会CSIG
0+阅读 · 2021年10月26日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
1+阅读 · 2021年10月20日
【速览】ICCV 2021丨Oriented R-CNN:有向目标检测
中国图象图形学学会CSIG
0+阅读 · 2021年8月25日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Automated Data Augmentations for Graph Classification
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
VIP会员
相关资讯
【速览】TNNLS 2022 | DualConv:用于轻量级深度神经网络的双卷积核
中国图象图形学学会CSIG
2+阅读 · 2022年4月11日
【速览】ICCV 2021 | GraphFPN for Object Detection: 图特征金字塔网络
中国图象图形学学会CSIG
0+阅读 · 2021年10月26日
【速览】ICCV 2021丨Visual Saliency Transformer: 视觉显著性转换器
中国图象图形学学会CSIG
1+阅读 · 2021年10月20日
【速览】ICCV 2021丨Oriented R-CNN:有向目标检测
中国图象图形学学会CSIG
0+阅读 · 2021年8月25日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员