旷视提出DRConv:动态区域感知卷积,提升分类/检测/分割性能

2020 年 5 月 12 日 极市平台

加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~

本文授权转自知乎作者 张凯,https://zhuanlan.zhihu.com/p/136998353。未经作者许可,不得二次转载

背景

《Dynamic Region-Aware Convolution》是2020年旷视在arXiv上的新论文,该论文实际上是在动态卷积(local形式)上引入了空间上的分组,从而显著提升了计算机视觉任务(分类检测分割)等性能,在云端实验还是非常值得尝试的。

论文地址:

https://arxiv.org/abs/2003.12243

一、研究动机

该论文提出了一种新的卷积方式Dynamic Region-Aware Convolution(DRConv),动态区域感知卷积,该卷积基于不同feature map 上不同区域特征的特性,采用不同的卷积核,在少量增加参数量的情况下,显著提升了分类、检测、分割等任务的性能。

二、研究方法

整体思路如图所示:

作者主要在输入的特征图上生成一个mask,将输入特征图进行一个粗分类,划分成m个区域,然后再生成m个不同的卷积,在每个区域内部,不同位置的卷积核是共享的,在不同区域,卷积是不同的。该做法一方面充分利用了特征图上的空间信息,另一方面又能保持较好的不变性。对比标准卷积,该方法不增加计算量,同时标准卷积所有位置采用相同的卷积核,为了获取足够信息,需要很大的通道数,这种做法是低效的。对比local convolution,即每个位置都采用不同的卷积核,该方法一方面可以减少很大的参数量,另一方面在相似的区域采用相同的卷积核有利于保持不变性。(该论文认为局部卷积在分类任务上没有提升,就是由于这个原因。)

主要分成以下几个部分:

(1) 动态区域感知卷积

标准卷积如下:

局部卷积则是不同位置都有不同的卷积核:

对于动态区域感知卷积,其不同区域采用不同的卷积核:

(2) Guided-mask

在forward中,作者采用一个卷积得到m个通道的特征,然后在通道维上对每一个位置取argmax,取其索引,即为该位置对应在卷积核生成模块应该采用的卷积核:

在backward中,由于采用了argmax,无法进行梯度传播,所以考虑采用softmax进行替代,估计的特征图为softmax之后的特征图:

其估计特征图的梯度为(由wj的梯度进行传播):

然后用估计特征图梯度通过softmax反传:

(3) 卷积核生成模块

整个卷积核生成模块如图所示,首先采用一个average adaptive pooling得到kxkxC的特征图,然后接一个1x1的卷积,激活函数采用sigmoid,然后采用一个1x1卷积,没有激活函数,groups为m。得到m个kxk的卷积核。

三、实验结果

在分类任务上,采用DRConv在不同的模型上,性能有较为显著的提升,而计算量只增加了部分。

在检测和分割任务上,该方法也有明显的提升,并且region数目越多,其性能提升也更加明显。

从模型大小上看,其模型越小,其性能提升更加明显,这是由于小模型表达能力不足导致的。

Region 数目越大,其性能提升越明显,增加到8以上,其性能增加不明显。

从可视化的角度来看,底层特征区域的分割是较为离散的,高层语义特征上,其分割更加连续,这是由于高层语义特征有较大的感受野所致。

四、总结分析

该论文实际上是利用了特征图的空间特性显著提升了网络性能,缺点是非常不利于并行优化(batchsize的并行可以通过group 卷积实现),对硬件也非常不友好。

极市平台后台回复DRConv,即可获取本文下载链接。


推荐阅读:



添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 一起来让思想之光照的更远吧~


△长按添加极市小助手


△长按关注极市平台,获取最新CV干货


觉得有用麻烦给个在看啦~  

登录查看更多
1

相关内容

【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
目标检测中边界框的回归策略
极市平台
17+阅读 · 2019年9月8日
BASNet,一种能关注边缘的显著性检测算法
极市平台
15+阅读 · 2019年7月19日
CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法
极市平台
41+阅读 · 2019年3月8日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
12+阅读 · 2019年4月9日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
目标检测中边界框的回归策略
极市平台
17+阅读 · 2019年9月8日
BASNet,一种能关注边缘的显著性检测算法
极市平台
15+阅读 · 2019年7月19日
CVPR2019 | FSAF:来自CMU的Single-Shot目标检测算法
极市平台
41+阅读 · 2019年3月8日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关论文
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
12+阅读 · 2019年4月9日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员