弱监督目标检测(WSOD)和定位(WSOL),即使用图像级标签检测图像中包含边界框的多个或单个实例,是CV领域中长期存在且具有挑战性的任务。随着深度神经网络在目标检测中的成功,WSOD和WSOL都受到了前所未有的关注。在深度学习时代,已有数百种WSOD和WSOL方法和大量技术被提出。为此,本文将WSOL视为WSOD的一个子任务,并对近年来WSOD的成就进行了全面的综述。具体来说,我们首先描述了WSOD的制定和设置,包括产生的背景、面临的挑战、基本框架。同时,总结和分析了提高检测性能的各种先进技术和训练技巧。然后,介绍了目前广泛使用的WSOD数据集和评价指标。最后,讨论了WSOD的未来发展方向。我们相信这些总结可以为今后的WSOD和WSOL研究铺平道路。
引言
目标检测[2]是一项基础的、具有挑战性的任务,旨在定位和分类图像中的对象实例。对象定位是使用边界框(一个与轴对齐的矩形紧紧包围对象)在图像中搜索尽可能多的对象的空间位置和范围[3],[4]。对象分类是评估图像中给定一组对象类中是否存在对象。目标检测作为计算机视觉最基本的任务之一,是许多高级应用不可或缺的技术,如机器人视觉[5]、人脸识别[6]、图像检索[7]、[8]、增强现实[9]、自动驾驶[10]、变化检测[11]等。随着卷积神经网络在视觉识别领域[12]-[14]的发展,以及大规模数据集[4]、[15]的发布,当今最先进的目标检测器在全监督设置下可以达到近乎完美的性能,即全监督目标检测(FSOD)[16] -[21]。然而,这些完全监督的对象检测方法存在两个不可避免的局限性:1)大量实例注释难以获取,而且需要大量的人工。2)在标注这些数据时,可能会无意中引入标注噪声。
为了避免上述问题,社区开始在弱监督设置下解决对象检测问题,即弱监督对象检测(WSOD)。与完全监督的设置不同(参见图1 (a)), WSOD的目的是检测只有图像级标签的实例(例如,实例在整个图像中的类别)。同时,WSOD也可以从网络上的大规模数据集中获益,如Facebook和Twitter。另一个类似的任务是弱监督对象定位(WSOL),它只检测图像中的一个实例。由于WSOD和WSOL分别检测多个实例和单个实例,所以我们认为WSOL是WSOD的一个子任务。在接下来的文章中,我们使用WSOD来表示WSOD和WSOL。
在本文中,我们回顾了所有典型的WSOD方法,并对WSOD的最新进展进行了全面的综述(参见图2)。在第二部分,我们介绍了背景、主要挑战和基本框架。在第三部分中,我们根据WSOD的发展时间表,详细介绍了几种现代经典方法。然后,对主要挑战的所有先进技术和技巧进行了深入分析。在第8节中,我们将演示WSOD的所有流行基准和标准评估指标。在第9节中,我们简要地讨论了未来的方向。
在本文中,我们总结了大量的深度学习 WSOD方法,并给出了大量的解决方案来解决上述挑战。综上所述,本文的主要内容如下: