IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

2018 年 5 月 14 日 新智元

新智元专栏

作者：上海交通大学未来媒体网络协同创新中心

【新智元导读】训练一个高准确率的检测模型需要大量精细标注的图片数据，其成本很高。本文提出了一种弱监督协同学习框架，仅使用粗略标签的图片训练目标检测模型，测试结果显示其定位精确率和检测准确率均显著优于目前最先进的方法。

目标检测是机器视觉的基本问题，在视频监控、无人驾驶等场景都有广泛应用。随着深度学习的兴起，近年来涌现了大量优秀的目标检测模型。然而，训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件，需要花费大量的人力物力。

同时，我们可以从互联网轻松获取海量粗标注的图片，如利用Flickr的标签。因此，研究如何在弱监督条件下，即仅提供粗略图片类别标注，训练目标检测模型，具有重要的意义。已有学者探索了基于多示例学习构建弱监督条件下的目标检测模型学习方法，但是模型的精确度仍然难以令人满意。

论文：Collaborative Learning for Weakly Supervised Object Detection

论文链接：https://arxiv.org/abs/1802.03531

本论文提出了一种弱监督协同学习（WSCL）的框架，将弱监督学习网络和强监督学习网络连接成为一个整体网络，通过一致性损失约束强监督和弱监督学习网络具有相似的预测结果，通过强监督和弱监督学习网络间部分特征共享保证两个网络在感知水平上的一致性，从而实现强监督和弱监督学习网络的协同增强学习。弱监督协同学习框架结构如下图所示：

弱监督协同学习框架（以目标检测为例）

基于上述弱监督协同学习框架，论文设计了一个端到端的弱监督协同检测网络（WSCDN），弱监督和强监督的检测模块分别采用了目前最优秀WSDDN和 RCNN网络结构。其网络结构如下图所示。

弱监督协同目标检测学习模型

在每次学习迭代中，整个目标检测网络只将图像级标签作为弱监督，并且通过预测一致性损失并行优化强监督和弱监督检测网络。

下图是WSCDN训练时，强监督和弱监督检测网络准确率的变化曲线。

可以看出，在训练的初始阶段，弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多，两者的准确率均逐渐上升，但强监督检测网络提升的速度更快，并很快超越弱监督检测网络。在整个训练过程中，两类检测网络相互协同，达到了共同提高的效果。

我们比较了弱监督协同检测网络与其他相关弱监督检测方法在PASCAL VOC 2007测试图片上的效果（见下图）。其中，I_W是单独训练得到的弱监督检测模型，CS_S是分开迭代训练得到的强监督检测模型，CL_W和CL_S分别是通过弱监督协同检测网络得到的强监督和弱监督检测网络。可以看出，我们的强监督检测网络明显优于其他检测器网络，表现在可以得到更全面和更紧凑的包围框预测。