专栏 | MSRA视觉组最新研究：可变形卷积网络

2017 年 3 月 24 日 机器之心

MSRA 视觉组

作者：代季峰、齐浩之、熊郁文、李益、张国栋、胡翰、危夷晨

近日一篇名为《可变形卷积网络(deformable convolutional networks)》的论文在业内引起了极大的关注，这篇文章对此项研究进行了解读。读者可点击阅读原文下载此论文。

摘要

由于构造卷积神经网络 (CNN) 所用的模块中几何结构是固定的，其几何变换建模的能力本质上是有限的。在我们的工作中，我们引入了两种新的模块来提高卷积神经网络 (CNN) 对变换的建模能力，即可变形卷积 (deformable convolution) 和可变形兴趣区域池化 (deformable ROI pooling)。它们都是基于在模块中对空间采样的位置信息作进一步位移调整的想法，该位移可在目标任务中学习得到，并不需要额外的监督信号。新的模块可以很方便在现有的卷积神经网络 (CNN) 中取代它们的一般版本，并能很容易进行标准反向传播端到端的训练，从而得到可变形卷积网络 (deformable convolutional network)。大量的实验验证了我们的方法在目标检测和语义分割这些复杂视觉任务上的有效性。代码将会公布。

Figure 1 展示了卷积核大小为 3x3 的正常卷积和可变形卷积的采样方式，(a) 所示的正常卷积规律的采样 9 个点（绿点），(b)(c)(d) 为可变形卷积，在正常的采样坐标上加上一个位移量（蓝色箭头），其中 (c)(d) 作为 (b) 的特殊情况，展示了可变形卷积可以作为尺度变换，比例变换和旋转变换的特殊情况

Figure 2 展示了可变形卷积框架，首先通过一个小卷积层（绿色）的输出得到可变形卷积所需要的位移量，然后将其作用在卷积核（蓝色）上，达到可变形卷积的效果。

Figure 3 展示了可变形兴趣区域池化框架。首先通过标准的兴趣区域池化（绿色）获得兴趣区域对应的特征，该特征通过一个全连接层得到兴趣区域每个部位的位移量。用该位移作用在可变形兴趣区域池化（蓝色）上，以获得不局限于兴趣区域固定网格的特征

Figure 4 展示了两层结构，拥有标准固定感受野的卷积层 (a) 与拥有自适应感受野的可变性卷积层。最上方是两个在不同大小的物体上的激活单元，中间是该单元所需的采样位置，最下方是中间的采样点分别所需的采样位置

Figure 5 对可变形卷积的效果进行了可视化，其中左中右分别展示了激活单元（绿点）倒推三层可变形卷积层以后在背景/小物体/大物体上的所采样的点

Figure 6 对可变形兴趣区域池化的效果进行可视化，使用了 R-FCN，兴趣区域网格大小为 3x3，可以发现现在池化区域基本覆盖在物体上。

Table 1 在各种方法和各种数据集上，使用不同层数的可变形卷积对结果带来的影响，其中 DeepLab 在 VOC2012 与 Cityscapes 的训练集上进行训练，在验证集上进行测试，class-aware RPN, Faster R-CNN 与 R-FCN 在 VOC2007 与 VOC2012 的训练验证集上进行训练，在 VOC2007 的测试集上进行测试。