ICCV 2019 | Label-PEnet: 基于序列化标签传播与增强网络的弱监督实例分割

会员服务 ·

ICCV 2019 | Label-PEnet: 基于序列化标签传播与增强网络的弱监督实例分割

2019 年 11 月 4 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文来源：码隆科技

Label-PEnet: Sequential Label Propagation and Enhancement Networks for Weakly Supervised Instance Segmentation

https://arxiv.org/abs/1910.02624

近年来，弱监督学习越来越受到学界和业界的关注。它致力于在仅仅给定图像级别标签的情况下精确地检测与分割物体实例。因为手工标注大量训练数据代价高昂，与监督学习、半监督学习等方式相比，它是更适用于现实环境的技术。然而，现有的弱监督方法虽然可以达到很有竞争力的结果，但是仍然和全监督方式训练出的神经网络有很大的性能差距。

与以前那些包含多个离线模块的方法不同的是，本篇论文提出了序列化标签传播与增强网络（缩写为Label-PEnet）。Label-PEnet基于一种由粗到细的方式，可以递进地将图像级别的标签转化成像素级标签。

本篇论文有两大贡献：第一，引入了Label-PEnet概念，设计了四个级联的模块，包括多目标分类模块，物体检测模块，实例细化模块和实例分割模块。这些模块共享同一个主干网络。Label-PEnet的训练包含了两个阶段。它是探索卷积神经网络在识别像素方面向前迈进的重要一步，并提升了弱监督实例分割的性能；第二，提出了一个物体候选校准模块去揭示卷积神经网络的分类过程，然后从图像级别和物体级别去挖掘像素标签。在这个模块中，top-down和bottom-up的方法都被使用并且被结合去精确地识别物体像素。

在标准测试集PASCAL VOC 2007和PASCAL VOC 2012上评估Label-PEnet在挖掘实例掩码上的效率时，实验结果表明Label-PEnet明显超越了现有的最新算法，并且性能和全监督的方法有一定的可比性。该论文发表于最近的ICCV 2019，对于码隆科技所一直专注的AI商品识别领域而言，Label-PEnet也能给相关的产品带来一定的性能提升。

1 摘要

2 介绍

3 Label-PEnet:序列化标签传播与增强

3.1 任务背景与方法总述

3.2 多级联模块

3.3 基于标签传播的训练

4 结论

摘要

弱监督学习致力于在仅仅给定图像级别标签的情况下精确地检测与分割物体实例。不同于以前那些包含多个离线模块的方法，我们提出了序列化标签传播与增强网络（缩写为 Label-PEnet）。Label-PEnet 基于一种由粗到细的方式可以递进地将图像级别的标签转化成像素级标签。我们设计了四个级联的模块，包括多目标分类模块，物体检测模块，实例细化模块和实例分割模块。这些模块共享同一个主干网络。我们基于课程学习的策略交替这些级联的模块，从而把标签从高层图像级别推广到低层像素级别。此外，我们提出了物体候选校准模块去分析一个分类网络，找出那些代表物体部件的重要像素。该模块作为一种后期校验的策略以一种和正向前馈相反的方式运行。我们在标准测试集 PASCAL VOC 2007 和 PASCAL VOC 2012 上评估 Label-PEnet 在挖掘实例掩码上的效率。实验表明 Label-PEnet 超越了明显超越了现有最新算法，并且和全监督的方法有一定的可比性。

介绍

基于大量手工标注数据，深度卷积神经网络在计算机视觉中取得了巨大突破。通过设计强大的网络结构，卷积神经网络可以检测物体位置，并精确地分割出物体实例。然后，当缺少物体级别或者像素级别标注信息时，仅仅使用图像级别的标签训练出的神经网络在物体检测和分割方面的性能将会大幅下降。

为了探究神经网络在仅给出图像级别标签下估计像素级别标签的能力，许多弱监督检测和分割方法被提出来。一些方法使用自底向上的方式将像素聚合形成物体候选，然后重复评估这些物体候选并找出物体的准确位置。另外一些方法通过自顶向下或者自底向上的方式，分析卷积神经网络的分类过程，从而为实例分割生成实例候选。也有一些方法结合了以上两种方式。

现有的弱监督学习方法可以达到很有竞争力的结果，但是仍然和全监督方式训练出的神经网络有很大的性能差距。尽管我们可以通过一个分类网络去粗略地鉴定出物体位置，但即使是在使用多种后处理的情况下，想要精确地对像素进行分类仍然是十分困难的。这促使我们重新思考卷积神经网络在各种视觉任务中的角色，比如图像分类，物体检测和实例分割等。我们发现全监督方式中精确的标注信息是成功的关键。因此，弱监督检测和分割的核心任务就是如何以由粗到细的方式使用多种模块逐步地将图像级别标签转换为像素级别标签。

卷积神经网络的二维结构允许它能够准确地抓取局部信息，并且随着网络的加深其卷积核的感受域也随之变大。这些特性允许它能够记住并正确分类物体。我们的目标是在仅仅只有图像级别的标签的情况下分割出物体。这里我们一种按序级联的卷积神经网络。它包含四种模块：a）多目标分类模块，b）物体检测模块，c）实例细化模块，和 d）实例分割模块。

多目标分类模块 在这个模块中，一张图像首先被分化成许多小块，然后生成一系列的物体候选。这里我们使用基于低阶统计特性的无监督方法 Selective Search 或 Edge Box 来生成物体候选。然后一个分类分支和一个加权分支被引入以实现多目标分类。此外，我们提出了一个物体候选校准模块，用以更加准确地定位物体，并精确地预测出每个候选中的像素标签。

物体检测模块 使用生成的粗略物体位置信息来训练一个标准的 Faster-RCNN 物体检测模型。但是这样的话可能会导致训练不够稳定。这里我们把分类模块中每个物体候选的得分作为训练物体检测的权重，并且在序列化学习时在线推理物体位置。类似地，我们使用物体候选框校准来判定哪些像素属于相应物体，以进一步提升检测和分割准确率。

实例细化模块 在拥有生成的物体位置和实例掩码之后，我们使用 Mask-RCNN 训练标准的实例分割。然而，当前监督信息仍然不够准确，因此我们需要进一步使用检测模块中的得分去引导当前的实例分割的训练。此外，我们使用增添新的实例分割分支是因为随着神经网络训练的进行，它可以逐步修正之前物体候选校准模块单个生成的实例掩码中的错误。

实例分割模块 在这个模块中，我们获得相对而言更加强大和精确的监督信息。这些信息被用以指导当前实例分割的训练，并生成最终的实例分割结果。

本文的主要贡献总结如下：

第一，我们设计了一种新的弱监督实例分割算法：序列化标签传播与增强网络（Label-PEnet）。Label-PEnet 包含四个级联的模块来逐渐地挖掘、总结并修正对物体表观的精确预测。Label-PEnet 的训练包含了两个阶段。它是探索卷积神经网络在识别像素方面向前迈进的重要一步，并提升了弱监督实例分割的性能。

第二，我们提出了一个物体候选校准模块去揭示卷积神经网络的分类过程，然后从图像级别和物体级别去挖掘像素标签。在这个模块中，自上而下和自下而上的方法都被使用并且被结合去精确地识别物体像素。

第三，为了检验 Label-PEnet 的性能，我们在标准数据集 Pascal VOC 2007 和 Pascal VOC 2012 上进行测试。实验证明 Label-PEnet 可以明显超越现有的方法，并且性能与全监督方法有一定的可比性。

Label-PEnet：序列化标签传播与增强

3.1 任务背景与方法总述

给定一张标签为的图像，我们的目标是对于每个物体实例估计出像素级别标签。是物体类别数目，是像素数目。是一个二值数字，当表示图像包含第个物体类别，否则，。一个像素 p 的标签被表示为一个维二值向量。在这篇论文中，我们基于课程学习中的分支思想，提出用以实例分割的弱监督学习算法。它允许我们以不断增强的监督信息去训练模型参数。整个模型通过四个模块自动从图像级别标签去学习像素级别标签：多目标分类模块，物体检测模块，实例细化模块，和实例分割模块。图 1 中表示提出的 Label-PEnet。

图1.本文所提出的用以进行弱监督实例分割的 Sequential Label Propagation and Enhancement Network(Label-PEnet)。（a）总述：训练流程包含两个阶段，一个是课程学习阶段从图像级别标签去学习像素级别标签，另外一个从反方向验证前一个模块所生成的结果。（b）共享的主干网络：主干抽取特征的网络被各个模块共享。（c）多目标分类，物体检测，实例细化与实例分割的具体细节。我们使用两个训练阶段去学习 Label-PEnet：级联的预训练阶段和前向后向学习阶段。主干网络在级联预训练时被固定住，然后在前向后向学习阶段被放开。

3.2 多级联模块

多目标分类模块 这个模块的目标是使用图像类别标签生成出一系列物体候选的对应类别置信度和对应候选框对于最终分类的权重。为了粗略地鉴别出物体区域，我们使用 Selective Search 去生成一系列物体候选框。这些物体候选然后被用作多目标分类模块的输入用以找出拥有更高置信度的物体候选框,并且学习找出那些在分类过程中扮演关键角色的像素。

对于一个分辨率为的图像，给定一个卷积步长为的深度神经网络，我们会在最后一个卷积层得到一个分辨率为的卷积特征图。然后对于中的每个物体候选框，我们在特征图像上使用 ROI 池化得到个区域的特征。两个全连接层被分别连接在这些区域的特征上，产生分类结果和权重矩阵。这些候选框的权重指示了每个候选框对于每个类在进行多目标分类时的贡献。Softmax 函数被用以归一化这些权重，

这里代表第 i 个候选框在第 j 个类别上的权重。我们得到一个归一化之后的权重矩阵。然后我们通过使用一个逐元素级别的点积去得到每个候选框在每个类别上的最终得分。最后图像级别多目标分类得分通过对所有候选框在逐个类别上进行求和，得到。代表在每个类别上的置信度。对使用 Softmax 函数得到概率向量。然后对于图像级别多目标分类损失目标函数可以写成下式，

物体候选框校准模块 前面模块中的那些物体候选框和他们的分类得分，被物体候选框模块处理以进一步优化生成的物体候选框。该模块的主要目的是提升物体边界框的准确率，生成物体掩码，以为下一个模块提供更加强大和精确的监督信息。

最近一种叫做 Excitation Back-Propagation (Excitation BP) 的方法被提出来使用预测出的图像级别的标签去生成一个具有判别性的物体注意力图像。这启发我们去使用预测的分类得分来为每个物体候选框计算出注意力图像。我们分析与分类模块相同的网络结构。具体地说，给定一个物体候选框，我们使用 Softmax 函数在它的分类预测得分上进行归一化，得到，并且选最高值去预测物体类别。然后我们将除第个数值外的所有其他元素置零得到一个类别激活向量。我们将该激活向量作为输出以一种前馈的方式进行激活反向传播直到 ROI 层。如图 2 所示，对于每个物体候选框生成一个物体候选注意力图。然后对于拥有标签的所有候选框，我们使用分类得分进行非极大抑制（NMS），得到拥有最高得分的物体候选。对于那些拥有类别标签 c 的物体候选框且被抑制的，我们把他们的物体候选框注意力图投影到图像上的对应位置，并且生成一个针对每个类别的注意力图，如图 2，被记做对于 c 类物体的实例注意力图。最终，我们可以计算一个系列物体实例注意力图：，和一个背景图像。

我们进一步对每个实例类别计算一个物体热力图。对于实例类别 c，我们计算每个候选框的分类得分，然后将其加在该候选框包围的像素上面。所有候选框都将其在 c 类上的得分在图像对应位置进行累加，然后进行归一化。我们将实例注意力图和物体热力图进行结合，得到最终的实例置信度图。条件随机场（CRF）被进一步用来精确地分割物体实例。这样我们就得到分割掩码集合和相应的物体外接框。同时，对于每一组物体候选框和分割掩码，我们简单使用被找出的物体候选框的分类得分作为权重，得到预测出的实例权重，并用其指导下一个阶段的物体检测模块。

物体检测模块 在拥有生成出的物体外接框和对应权重，我们用他们作为真值训练标准的物体检测模型。其与现有物体检测模型的主要不同在于训练时我们对于每个生成的物体候选框提供了一个学习到的权重。我们遵循标准的 Faster-RCNN 训练流程，在真值物体框周围采样一些正样本和负样本，并且每个物体候选框拥有其对应真值同样的权重。区域候选提取网络（RPN）的优化目标如下，

这里是物体候选框的数目，是预测出的物体得分，是预测出的物体位置偏移，是候选框权重，是伪物体位置，是固定常数。，和分别是二值的物体或者非物体的损失函数，分类损失函数和物体外接框回归函数。对于 RCNN 部分，优化目标计算如下，

这里是分类得分，代表物体类别。是 RPN 生成的物体候选框数量，是分类损失函数。在 Faster-RCNN 部分，类似物体分类模块中我们使用物体候选校准去精细化物体位置。这使得该模型产生了密集的物体候选框注意力图。在推理阶段，不同于多目标分类阶段每个类别产生单个候选框，这里多个类别中的每个都可以生成多个物体候选。最终我们得到多个实例掩码，对应外界候选框，和权重。这里代表物体实例的数目。

实例精细化模块 在拥有生成出的实例掩码和对应外界候选框，我们可以像 Mask-RCNN 一样同时训练一个检测分支和一个掩码分支。在该模块中，我们为了进行密集像素级预测实现了实例推理而非实例模块校准。我们通过收集前面模块中隐藏的信息而学到物体实例并对其进行建模。我们用权重对实例分割的损失函数就行加权，类似检测模块，然后进行标准的 Mask-RCNN 的训练。如同物体候选框校准，对应位置的物体掩码被叠加到一起生成新的实例置信度图。同样地，我们进行 CRF 以获取更加精确的实例分割。

实例分割模块 在这个模块中，图像级别标签被成功地转移到密集的像素级标签。我们简单的采用实例精细化模块中的策略，用标准的全监督的方式训练实例分割，并最终输出实例分割的结果。

3.3 基于标签传播的训练

为了更好地训练序列化模型并避免局部最小值，我们使用一个 ImageNet 预训练的模型初始化我们的主干网络。整个训练过程通过使用前面模块的输出而逐渐地增强监督信息。我们采用了级联预训练和前向后向课程学习来完成整个网络的参数训练。

级联预训练 主干网络在进行级联预训练时被固定住。我们依次从多目标分类开始到实例分割逐步对四个级联模块进行预训练。当当前模块训练收敛，模型输出被修正后，该输出作为下一个阶段的训练数据。通过级联预训练，我们将弱监督实例分割任务分解为四个序列化的子问题，将图像级别的监督信息逐渐地并且高效地传播到密集像素级别。

前向后向课程学习 训练四个级联模块是非常有挑战性的，因为在进行标签传播时，网络非常容易陷入局部极小值。为了克服这个问题，我们提出了前向后向课程学习。课程学习包含两个阶段，即前向课程学习阶段和后向验证阶段。在前向课程学习阶段，四个模块被依次训练，同时监督信息逐渐增强。在反向验证阶段，我们以相反的方向训练这四个模块。反向训练模块从实例分割模块开始，它仅仅进行推理，为实例精细化模块准备好物体位置和实例掩码。然后实例精细化模块被以一种全监督的方式进行，为物体检测模块提供训练数据。在多目标分类模块，我们将和物体检测模块推理出的物体位置重叠大于 0.5 的都设定为相应物体，否则设为背景。然后我们在这些物体候选中进行单标签分类，同时保持多标签分类任务。在每次迭代中前向后向学习交替进行，并放开主干网络使其参与参数训练。

图 2.物体候选校准模块。（a）物体候选：所有被非极大抑制 NMS 吸收的物体候选框被拿来产生物体候选注意力图像。（b）Excitation BP: 激活反向传播在每一个物体候选上都被实现。（c）对于“人”和“马”生成的物体候选注意力图像。所有同一个物体的的物体候选注意力图像被结合生成单个物体实例注意力图。（d）实例掩码生成：实例注意力图和物体热力图被结合起来计算一个实例置信度图，这里我们使用 CRF 来得到最终分割结果。

结论

我们提出了一种新的弱监督物体检测与实例分割算法，叫做序列化标签传播与增强网络（简写为Label-PEnet）。Label-PEnet 使用四个级联的模块可以以一种由粗到细的方式逐步地将图像级别的标签转换为像素级别的预测。这四个模块分别是：多目标分类模块、物体检测模块、实例精细化模块与实例分割模块。此外，我们设计了一种候选框校准模块去探索用于进行分类任务的卷积神经网络在鉴别物体上关键像素的能力，从而提升后续检测和分割任务的准确率。我们的算法在标准的弱监督物体检测和分割的测试集上进行了，明显超过了现有的最新算法。

重磅！CVer-图像分割交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨等群。一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡）