会员服务 ·

浙大宋明黎等最新《深度学习低样本目标检测》综述

2021 年 12 月 27 日 极市平台

↑ 点击蓝字关注极市平台

来源丨专知

编辑丨极市平台

极市导读

最新低样本目标检测综述 >>加入极市CV技术交流群，走在计算机视觉的最前沿

目标检测是计算机视觉和图像处理中的一项基本任务。目前，基于深度学习的目标检测器已经成功地获得了大量的标记数据。但在现实生活中，并不能保证每个对象类别都有足够的标记样本进行训练。这些大型目标检测器在训练数据有限的情况下容易出现过拟合。因此，有必要将少样本学习和零样本学习引入目标检测中，两者可以统称为低样本目标检测。低样本目标检测(Low-Shot Object Detection, LSOD)旨在从少量甚至零标记数据中检测目标，可分为少样本目标检测(few-shot Object Detection, FSOD)和零样本目标检测(zero-shot Object Detection, ZSD)。本文对基于FSOD和ZSD的深度学习进行了全面的研究。首先，本综述将FSOD和ZSD的方法分为不同的类别，并讨论了它们的优缺点。其次，本综述回顾了FSOD和ZSD的数据集设置和评估指标，然后分析了不同方法在这些基准上的性能。最后，本综述讨论了FSOD和ZSD未来面临的挑战和发展方向。

论文链接：https://arxiv.org/abs/2112.02814

引言

目标检测是计算机视觉中一项基础而又具有挑战性的任务，它的目标是在图像中定位特定类别的目标。目标检测已广泛应用于许多计算机视觉任务中，如目标跟踪[88]、图像标注[67]、场景图生成[72]等。目标检测的一般过程是为一组包围框(图像中参考的假想矩形)预测类别。大多数传统方法通过在整个图像中滑动一个窗口来生成这些边界框。Viola-Jones (VJ)检测器[74]首次采用积分图像、特征选择和检测级联三种加速技术实现了人脸的实时检测。随后提出了直方图定向梯度(histogram of oriented gradient, HOG)[12]，并被许多目标检测器用于特征描述。在这些方法中，基于变形部件的模型[16]是一种典型的方法。DPM将一个对象检测任务划分为多个细粒度的检测任务，然后使用多个部分过滤器检测对象部件，并将其聚合起来进行最终预测。虽然人们已经做了很多改进，但传统的方法受到速度慢、精度低的限制。

与传统方法相比，深度方法能够以更有效的图像特征实现更强的性能。R-CNN[21]是基于深度学习方法的最具代表性的工作之一。它使用选择性搜索获得区域建议(即图像中更可能包含目标的区域)，然后使用预训练好的CNN模型提取其特征，进行进一步的分类和定位。快速R-CNN[20]通过使用感兴趣区域(RoI)池化层来从图像的整个特征图生成区域建议的特征图来改进R-CNN。Faster R-CNN[64]进一步提出了一种区域提议网络(region proposal network, RPN)，取代了传统的通过锚点(即预定义的一定高度和宽度的包围盒)从整个图像特征地图生成区域提议的方法。R-CNN、Fast R-CNN和Faster R-CNN分为两个阶段模型，首先生成区域建议，然后进行预测。为了进一步加速，单阶段模型将这两个过程结合在一起。YOLOstyle目标检测器[63][3][19]是单级检测框架的代表模型。根据从原始图像中提取的特征图，yolo风格的检测器直接在图像的所有位置上预定义多个尺度的锚点，并预测每个锚点的类别概率、位置偏移量和目标置信度。单级检波器的性能一般不如两级检波器，一些方法如焦损耗[47]被提出以减小单级和两级检波器之间的性能差距。最近，一种基于transformer的检测器被提出，命名为DETR[4]。DETR直接将固定数量的目标查询转发到transformer中，并对它们进行预测。DETR实现端到端检测，具有与许多经典探测器相当的性能。为了缓解检测器收敛缓慢的问题，变形检测器[103]提出了一个变形注意模块，它只访问一个参考点周围的一小组关键采样点，而UP-DETR[11]提出了一个名为随机查询补丁检测的非监督任务来预训练检测器。

然而，这些目标检测器依赖于大量的训练数据。在训练数据不足的情况下，现有的目标检测器容易过拟合，不能泛化到测试数据。在现实生活中，由于某些目标类别的稀缺或特殊的标签成本，很难收集到足够的标签数据。因此，现代目标检测器需要具备从少量甚至零标记数据中检测目标的能力，并将少样本和零样本学习引入到目标检测中。少样本学习的目的是从少量标记样本中学习泛化模型。在过去的几年里，针对少样本学习提出了很多方法，大致可以分为数据增强方法、元学习方法和迁移学习方法。数据增强方法通过使用传统的图像变换方法或基于深度学习的方法(如GAN)生成新样本，直接解决了数据稀缺问题。元学习方法采用学习到学习的机制，在另一个数据丰富的数据集上定义多个少次任务来训练模型，使模型能够快速适应当前的少次任务。与在元学习中使用多个片段进行训练不同，迁移学习方法的目标是直接学习另一个数据集上的良好图像表示，并将它们转移到当前数据集。Work[73]研究了一些用于少量图像分类的基线迁移学习方法，实验证明它们优于许多经典的元学习方法。

图1. 本次综述的概述。本文对低样本目标检测进行了全面的介绍，并将低样本目标检测分为单样本目标检测、少样本目标检测和零样本目标检测三个领域。图中还用三种颜色演示了这三个域的更细粒度的分类，后面的小节将详细讨论这些分类。然后总结了OSOD、FS和ZSD的基准，并比较分析了不同LSOD方法在这些基准上的性能。最后对LSOD的发展方向进行了展望。

以往的少样本学习方法主要是针对图像分类的任务进行探索。由于目标检测需要额外的任务来定位目标，因此，少样本目标检测比少样本图像分类更具挑战性。但是FSOD方法继承了FSL方法的主要思想，FSL方法也可以分为两种主流方法:元学习方法和迁移学习方法。早期的FSOD方法遵循少样本学习的元学习方法，主要关注如何结合支持图像和查询图像的特性。这些元学习方法可以分为特征向量聚合方法和特征地图聚合方法。将迁移学习方法引入到少样本目标检测中，在另一个数据集中对检测器进行预训练，然后在当前的少样本数据集中对检测器进行微调。在迁移学习方法中引入了对比学习、度量学习、正则化等方法。除了原有的标准FSOD设置外，研究者还探索了半监督FSOD、弱监督FSOD和增量FSOD等其他设置。还有一个更有挑战性的设置，即每个少数样本类都有零标记样本，这被称为零样本学习(ZSD)。在零概率学习中，每个类都有其语义属性作为补偿。实际上，FSOD和ZSD可以考虑在一个条件下，一些方法[60][33]提出了一个组合模型，同时处理FSOD和ZSD。因此，本次综述将FSOD和ZSD表示为低样本目标检测(LSD)。低样本目标检测的层次结构分类法如图1所示。

本文对现有的少样本和零样本目标检测算法进行了全面的回顾和分析。本文总结了现有的少样本和零样本目标检测算法的性能。本文讨论了少样本和零样本目标检测的主要挑战和未来的发展方向。本文综述的其余部分组织如下。第二节描述了对少样本和零样本目标检测算法进行更细粒度的分类和分析。第八节描述了常用的少样本和零样本目标检测数据集和评价标准。第九节总结了现有的少样本和零样本目标检测算法的性能。最后，第十一节总结了本次综述的内容，然后讨论了当前方法面临的主要挑战和未来的发展方向的少样本和零样本目标检测。

整体框架的单样本目标检测方法，其中基于Faster R-CNN框架。该模型以查询图像和支持图像为输入，使用连体卷积特征提取器提取查询特征图和支持特征图。然后利用整体特征聚合将两个特征图聚合成一个融合的特征图，并将其转发到RPN和RoI层，分别生成区域建议和RoI特征。在不同的OSOD方法中，聚合方式的实现是不同的。最后将RoI特征用于分类任务和定位任务。一些方法还应用RoI特征聚合来聚合RoI特征和支持特征。

本文对低样本目标检测进行了深入的研究，根据每个新类是否使用少量标记样本或语义属性，将低样本目标检测分为少样本目标检测(FSOD)和零样本目标检测(ZSD)。首先对低目标检测方法进行了概括介绍，然后对FSOD和ZSD方法进行了分类和分析。总结了FSOD和ZSD的主要基准，并对不同方法的性能进行了比较。最后讨论了FSOD和ZSD的发展方向。

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“浙大综述”获取最新《深度学习低样本目标检测综述》下载～