更丰富的卷积特征用于目标边缘检测（文末附有论文及源码下载）

2019 年 7 月 16 日 计算机视觉战队

【导读】边缘检测是计算机视觉中的一个基本问题。近年来，卷积神经网络(CNNs)的出现极大地推动了这一领域的发展。现有的方法采用特定的深层CNN，但由于尺度和纵横比的变化，可能无法捕捉到复杂的数据结构。今天分享的paper提出了一种利用更丰富的卷积特征(RCF)来精确的边缘检测方法。

引言

如下图所示，构建了一个简单的网络，使用带有HED架构（S. Xie and Z. Tu, “Holistically-nested edge detection,” Int. J. Comput. Vis., vol. 125, no. 1-3, pp. 3–18, 2017.）的VGG-16生成中间层的输出，可以看出不同卷积层所获得的信息逐渐变粗。

从上图可以得到更重要的是，中间Conv层包含重要的细节。然而以往的CNN体系结构只使用最终的Conv层或在神经网络的池化层之前的层，而忽略了中间层。另一方面，由于更丰富的卷积特征对于许多视觉任务是非常有效的，许多研究人员致力于开发更深层次的网络。然而，由于渐变/爆炸梯度的消失和训练数据的不足，很难使网络在更深的范围内收敛。

那么，我们为什么不充分利用现在的CNN特征呢？？？在此基础上，提出了一种充分利用CNN特征的新深层结构-更丰富的卷积特征(RCF)，以图像对图像的方式对边缘检测进行像素级预测。RCF可以自动学习将来自CNN的所有层的互补信息组合起来，从而能够获得不同尺度上的目标价或目标部件的精确表示。

亮点

RCF将所有卷积特征封装成更有区分性的表示，从而很好地利用了丰富的特征层次结构，并且可以通过反向传播进行训练。RCF充分利用对象的多尺度和多层次信息，全面地进行图像到图像的预测。利用VGG-16网络，在几个可用的数据集上实现了最先进的性能。

在对著名的BSDS 500基准进行评估时，在保持快速速度(8 FPS)的同时，实现了ODS F-measure为0.811。此外，提出的方法还有一个快速版本，其达到了ODS F-measure为为0.806与30 fps。通过将RCF边缘应用于经典图像分割，验证了该方法的通用性。

RCF

借鉴了现有工作HED、FCN并开始VGG-16网络。VGG-16网络由13个Conv层和3个全连接层组成。将其Conv层划分为五个阶段，在这五个阶段中，在每个阶段之后连接池化层。由每个Conv层捕获的有用信息随着其感受野大小的增加变得更粗。在HED文献中中可以找到不同层的详细感受野大小。假设使用这种丰富的分层信息来帮助边缘检测，网络设计的出发点就是在这里。

上图显示了提出的新网络。与VGG-16相比，主要的修改可以概括为：

切割了所有全连接的层和池化层。一方面，去除了全连接的图层，形成一个全卷积的网络来进行图像到图像的预测；另一方面，增加池化层会使步长增加两倍，往往导致边缘定位的退化；
VGG-16中的每个Conv层连接到内核大小为1×1、深度为21的Conv层。并在每一阶段的结果特征映射被累积使用一个eltwise层来获得混合特征；
一个1×1−1 Conv层在每个电子层后面。然后，用反卷积层对该特征映射进行采样；
在每个阶段，交叉熵损失/sigmoid层连接到上采样层；
所有上采样层都连接在一起，然后用1×1 Conv层对每个阶段的特征映射进行融合。最后，采用交叉熵损失/sigmoid层来获得融合损失/输出。