ICCV 2019 | 精确的端到端弱监督目标检测网络

会员服务 ·

ICCV 2019 | 精确的端到端弱监督目标检测网络

2019 年 12 月 11 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：AI科技评论

作者 | bbuf 编辑 | 唐里

论文发于：ICCV 2019

论文标题：Towards Precise End-to-end Weakly Supervised Object DetectionNetwork

论文地址：https://arxiv.org/abs/1911.12148

由于没有实例级类别标注，对于弱监督目标检测网络要精确的预测目标的位置具有挑战性。大多数现有的方法倾向于通过使用双阶段的学习过程来解决该问题，即多实例学习检测器，然后是具有边界框回归的强监督学习检测器。

根据论文的观察，此过程可能会导致某些目标类别检测结果是局部最小。因此，论文提出以端到端的方式联合训练两个阶段，以解决这个问题。

具体来说，论文提出了一个具有多实例学习和共享同一主干网络的边界框回归分支的端到端网络。同时，将使用分类损失的引导注意力模块添加到主干，以有效的提取特征中的隐式位置信息。在公开数据集的测试结果表明，论文提出的方法达到了SOAT效果。

1. 研究背景

近年来，CNN在诸如图像分类，目标检测，语义分割任务中取得了巨大的成功。强监督的目标检测算法被广泛研究并取得了较高的精度，同时还有大量含有标注信息的公开数据集。但精确的目标级标注需要较为昂贵的人力成本，并且训练准确的目标检测模型需要巨大的数据量。

这篇论文瞄准弱监督目标检测(WSOD)进行研究，该问题仅使用图像级类别标签，从而可以节省大量的标注成本。因为缺少精确的标注信息，这个问题还没有得到很好的解决，并且它的性能也还不能和强监督的方法相提并论。最新的WSOD方法通常都是双阶段的学习过程，如Figure1所示：

Figure 1

在第一阶段，使用CNN来训练多实例学习(MIL)检测器。第二阶段使用一个强监督的目标检测器如Faster-RCNN，以使用第一阶段的建议作为监督信息来训练。第二阶段的目的是为了更精细的回归目标位置。但论文发现如果第一阶段的建议框离真实框(GT)太远，则两阶段学习容易陷入局部最小。

如Figure1顶部，在某些类别检测器中，MIL检测器倾向于关注目标的局部信息，例如猫的头部，因此错误的建议框被用过第二阶段的伪GT。

在这种情况下，很难在第二阶段的回归过程中了解对象的准确位置，因为MIL检测器已经严重地过度拟合了可分辨的部分，如Figure2中部所示：

Figure 2

然论文后进一步观察到MIL检测器在训练初期并未选择最有区别的部分，而是逐渐过度适合这些部分，如Figure2左图所示。考虑到上面的观察，论文提出以端到端的方式共同训练MIL检测器和目标框回归器，如Figure1底部所示。

以这种方式，回归器可以自适应调整预测框，并且将MIL检测器聚焦到较小的可区分的部分。MIL检测器是一个学习能力比较弱的过程，它利用选择性搜索如SSW算法生成建议框，然后利用类别得分筛选出伪GT作为作为分类和回归分支的监督信息。

论文还观察到训练好的分类网络包含丰富的目标位置信息，所以为了进一步增强建议网络的定位能力，论文提出在骨干中使用图像级分类损失的引导式注意力模块以提高网络的判别能力和检测能力。

2. 相关工作

2.1 卷积特征提取

CNN在分类任务上获得巨大成功后，也成为了目标检测任务中图像特征提取的不二之选。为了加快检测速度，SPP-Net和Fast-RCNN首先在全图提取特征，然后通过建议框的位置合并区域级特征。

2.2 弱监督目标检测

大多数现有的方法将弱监督检测公式化为多实例学习问题。这些方法将训练图像分为正、负两部分，每张图像被看作一个候选目标实例集合。如果将图像标注为特定类别的正样本，则该图像中至少有一个属于该类的实例目标。基于MIL检测器的主要任务是学习目标实例的判别表示，然后从正样本中选择它们来训练检测器。当前关于将MIL应用于WSOD的研究分为多阶段学习方法和端到端学习方法。

所谓端到端的WSOD就是将CNN和MIL合并到一个统一的网络中，以解决弱监督目标检测任务。Dibaet等人提出了一种端到端级联卷积网络，以级联的形式执行弱监督目标检测和分割。

Bilenet等人提出了WSDDN，该网络通过汇总分类分支和检测分支的分数来选择正负样本。基于WSDDN，Tanget等人提出了一种在线实例分类器细化(OICR)算法来缓解局部最优问题，同时还提出了区域聚类学习(PCL)来提高OCIR的性能。

最近，Tanger等人提出了一个弱监督区域提议网络以生成更精确的标签进行检测。然而正样本的目标实例通常关注目标最有区分性的部分如猫的头部，而不是整个目标，这导致弱监督检测器的性能比较差。

而多阶段学习方法是先使用MIL选择最佳目标候选区域，然后将选定的区域当做伪GT用来学习监督的目标检测器如Faster-RCNN。

Liet等提出了分类自适应以微调网络来收集特定类别的区域建议框。Ciabiset等人提出了一种多重MIL检测器，方法是重复标记候选框并反复训练目标分类器以防止检测器锁定在错误的目标位置。

Zhang等人通过将多视图学习合并到双阶段的WSOD模型中，提出了多视图学习本地化网络(ML-LocNet)。但是多阶段WSOD学习是一个非凸优化问题，容易陷入局部最优解。

在这篇论文中，同时考虑了MIL和回归问题，结合WSDDN和OICR/PCL算法来实现本文的MIL分支，并以在线方式通过回归分支精细化检测的目标框。

2.3 注意力模块

注意力模块首先在自然语言处理领域使用，然后引入计算机视觉领域。注意力模块可以看作是将可用的计算资源偏向于信号最有用的部分的一种方法。

当前注意力模块可以分成两部分：空间注意和通道注意，空间注意是根据其特征内容为不同的空间区域分配不同的权重。在特定任务的训练过程中，自动预测加权热力图，增强相关特征，抑制无关特征。空间注意力模块已经被广泛应用于图像标题，多标签分类，姿态估计等。

这篇论文结合了空间注意力和通道注意力，并且注意力模块由目标类别引导。

3. 方法

这一节，开始介绍本文提出的弱监督目标检测网络，该网络由三个重要的组件组成：引导注意力模块(GAM)，MIL分支和回归分支。网络的总体结构如Figure3所示：

Figure 3

给定输入图像，首先使用GAM从CNN网络中提取增强特征图。然后由ROI pooling处理生成的区域送到MIL分支和回归分支。MIL分支建议的目标类别和位置信息被用作回归分支的伪GT，以进行位置回归和分类。

3.1 引导注意力模块

首先我们来描述空间注意力结构。给定一个从卷积网络中提出的特征图

，注意力模块将其作为输入，然后通过一个1*1卷积层输出一个空间归一化的注意力权重图

，然后将注意力权重图和相乘获得

。然后

被加到

上获得增强后的特征图

。然后

被送入后续模块中。注意力权重图

类似于空间归一化以增强相关区域并抑制不相关区域。

从形式上来看，注意力模块由卷积层，非线性激活层和空间标准化层组成，如下：

其中

是非线性函数，

是注意力模块的1*1卷积的参数。增强后的特征图可以用下面的公式计算：

常规的注意力图是和类别无关的。本文希望它可以学习一些前景/背景信息来帮助确定目标的位置，因为已经有研究证明CNN不仅可以有效地预测类别标签，而且可以定位和此标签相关的图像区域。本文添加分类损失以指导注意力模块权重的学习。

为此，本文将空间注意力扩展到空间和通道注意力。具体来说，注意力图从

变成

。公式可以重写为：

其中c代表第c个通道。增强后的特征图可以用下面的式子来计算：

为了将分类监督引入到注意力权重学习中，还将注意力图馈送到另一个卷积层和全局平均池化层以获取分类得分向量。然后可以通过标准的多标签分类损失来监督注意力图的生成。增强后的特征被馈送到后续组件以进行检测。

3.2 MIL分支

由于只有图像级标签，指示目标类别是否出现过。为了训练带有回归任务的标准目标检测器，有必要挖掘实例级别的监督信息，例如边界框注释。

因此，这里引入了一个MIL分支来获得伪GT标注信息。本文选择采用基于WSDDN的OCIR网络来进行端到端的训练。WSDNN使用了两个流网络，分类流和检测数据流。通过汇总这两个流，可以实现实例级预测。

具体来说，给定只有图像级别标签的输入图像

，其中标签表示为：

，

代表类别为c的目标是否出现了。对于输入图像

，建议框集合

是Selective Search方法产生的。

每一个建议框的特征是使用一个在ImageNet上预训练的模型和ROI Pooling层产生的，然后特征被两个全连接层分成两个流：

。其中

代表建议框的总数，

代表图像的类别总数。这两个矩阵通过尺寸不同的soft-max层传递，输出是形状相同的两个矩阵：

。

然后，所有建议框的分数由下式产生：

。

最后可以通过汇总所有区域建议框的得分来获得图像级别的第c类的预测得分。在训练阶段，损失函数可以用下面的式子来表示：

由于WSDDN的性能不尽人意，论文采用了OCIR及其改进版的PCL来细化WSDDN的建议框。经过几次分类器细化后，分类器倾向于选择更精细的框作为积极实例，可以作为回归器的伪GT标注。

3.3 多任务分支

伪GT生成后，多任务分支可以像Faster-RCNN一样进行强监督的分类和回归。检测分支有两个子分支。第一个子分支预测离散概率分布(每个ROI)

，总共有

个类别是在全连接后面接soft-max层计算而来。

第二个子分支为每个类别输出边界框的回归偏移量

，这里的c表示某个类别。由于从3.2节介绍的MIL分支获得了实例标注，因此现在每个ROI都有一个GT边界标注框。使用所有标注的ROI进行多任务分类和回归，损失如下：

其中是

分类损失，

是回归损失。

控制两个损失的平衡，对于

，使用Smooth L1损失，对于

，因为伪标注信息带有噪声，所以我们为每一个ROI增加一个权重系数，公式如下：

其中

是建议框的个数，权重

是精细化分类器时使用特定方式计算的。因此整个网络的损失函数可以用下式表示：

其中

是GAM的多标签分类损失，

是WSDDN的多标签分类损失，

是精细化分类器的损失，

是检测分支的损失。

4. 实验

论文使用PASCALVOC2007和2012数据集进行评测，但数据标签只给图像级标签，最后用AP值和mAP值来评判模型的表现。

网络的Backbone使用VGG16，新增的层使用均值为0，方差为0.02的高斯分布随机初始化并将学习率提高10倍。

在训练的时候batch_size设置为2，前40K次学习率设为0.001，然后接下来的30K次衰减到0.0001。动量和权重惩罚设置为0.9和0.0005。我们使用5个图像尺度{480，576，688，864，1200}，然后训练测试都使用水平翻转的数据增强策略。

在测试过程中，我们使用回归分支的平均输出（包括分类分数和边界框）作为最终结果。我们的实验基于Caffe的深度学习框架。所有实验均在NVIDIA GTX1080Ti GPU上运行。

BaseLine 本文的BaseLine是在3.1节介绍的没有GAM和回归分支的MIL检测器，和OCIR一样。这里重新运行了该实验，并获得了41.3%的mAP值。

引导注意力模块 这里在BaseLine的基础上增加了这个模块，从Table1可以看到大概提高了MIL检测器2.0%的准确率。

联合优化 本文提出将MIL检测器和边界框回归结合起来，为了证明这种做法的有效性，进行了控制实验。

1）对MIL检测器和回归器进行了联合优化，将其表示为MIL+REG。

2）首先训练一个MIL检测器，然后使用MIL检测器中的伪GT训练一个全监督的Fast RCNN。

我们将其表示未MIL+FRCN。Table1和Table2展示了这两种方式的实验结果对比。

和其他的SOAT工作对比 如Table3，Table4,Table5,Table6所示，可以看到论文的模型表现是SOTA的，并且甚至超过了很多多模型融合的结果，证明了该方法的有效性。

论文还给了一张该算法和BaseLine算法在检测一些图片的结果对比图，如Figure4所示：

Figure 4

5. 对比和结论

C-WSL算法也探索了弱监督目标检测网络的边界框回归。并且本文和它都以在线的方式使用边界框回归，但是两者之间的网络架构存在关键差异，这导致C-WSL的性能大大低于本文的框架。

本文在使用多次框分类精细化之后使用边界框回归，并且只使用一次。C-WSL在MIL分支之后使用框回归器对每个框分类器精炼。他们的结构带来两个问题。

第一个是在MIL分支之后直接使用框回归器精炼是不合理的。

第二个是，框回归器以级联的方式用于每次优化，而没有针对ROI重新提取特征。

具体来说，后续的框回归分支应从上一个框回归分支中获取精炼框位置，以更新ROI并为分类和回归器重新提取ROI的特征。其网络精度仅比OICR算法提高了1.5%，而本文的网络提高了6%（注意论文使用的代码集都是OICR作者发布的）。

同时C-WSL不能解决局部极小值问题，在受局部极小问题影响最大的两个类别中，C-WSL在狗这一类别精度下降了4%，猫类下降了3%，而本文的方法分别提高了16.3%和38.6%

综上，这篇论文提出了一种用于弱监督目标检测的新框架。和该领域传统方法不同，这个框架可以端到端的训练MIL检测器和回归器。同时，还引入了注意力模块，用于更好的特征学习。实验表明，论文的方法可以实质性和可持续的改进若监督目标检测任务。这篇论文的学习算法有可能会被应用在许多其他弱监督的视觉任务中。

重磅！CVer-目标检测交流群已成立

扫码可添加CVer助手，可申请加入CVer-目标检测交流群，同时可申请加入CVer大群和细分方向群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群