目标检测是计算机视觉领域的一个关键研究方向,旨在准确识别和定位图像或视频中的特定物体。传统的目标检测方法依赖于针对每个物体类别的大规模标注训练数据集,这些数据集的收集和标注往往既耗时又昂贵。为了解决这一问题,研究人员提出了将小样本学习与目标检测原理相结合的小样本目标检测(FSOD)方法。这些方法使模型能够在只有少量标注样本的情况下快速适应新的物体类别。虽然传统的小样本目标检测方法已经被研究过,但本文综述了FSOD研究,特别是涵盖了不同的FSOD设置,如标准FSOD、广义FSOD、增量FSOD、开放集FSOD和领域自适应FSOD等。这些方法在减少对大量标注数据集依赖方面发挥着重要作用,特别是在对高效机器学习模型需求不断增加的背景下。本综述旨在全面理解上述小样本设置,并探讨每个FSOD任务的方法。本文详细比较了不同FSOD设置下的最新方法,并根据其评估协议进行了深入分析。此外,本文还提供了关于其应用、挑战以及未来在有限数据条件下发展的可能方向的见解。
近年来,随着深度学习技术的显著进步,目标检测领域取得了令人瞩目的发展,如Faster R-CNN [148]、YOLO [146]和DETR [9]等方法所展示的成果。目标检测的主要目标是准确识别和定位图像中的物体,同时将这些物体分类为特定的预定义类别。然而,传统的深度学习目标检测方法严重依赖于大规模标注的训练数据集 [84]。在现实世界中,获取大量数据通常是不可行的,这种依赖性带来了显著的挑战 [156]。获取足够数量的图像可能是不可行的,而为目标检测标注这些图像既昂贵又耗时。此外,在数据有限的情况下训练复杂的深度学习模型往往会导致过拟合问题,即模型在训练数据上表现良好,但在未见过的数据上表现不佳。相比之下,人类具备一种卓越的能力,能够在极少的数据下学习新概念,尤其是在早期发展阶段。例如,儿童在仅仅接触几次新物体后就能快速识别和区分这些物体。受这一令人印象深刻的人类能力启发,一种名为小样本学习 [156, 180] 的设定应运而生,在这种设定中,模型被训练以从少量样本中学习。
图1展示了标准的小样本学习机制,模型首先在大量标注数据上进行训练,然后通过显著更少的样本适应新类别。在小样本目标检测(FSOD)领域,其目标是仅使用有限数量的标注实例检测特定物体,从而消除了对大量标注数据的需求,这是现有目标检测方法的主要局限性。FSOD的第一阶段是使用来自已知类别(称为基类)的大量数据预训练模型。在第二阶段,这些知识使模型能够仅通过少量示例识别新的类别,这些新类别称为新类。
FSOD在现实世界的各种应用中具有重要意义,在这些应用中,获得大量标注数据既具有挑战性,又昂贵或耗时。在医学影像 [92] 中,FSOD方法可以通过有限数量的标注示例帮助识别罕见的新疾病,从而加快诊断和治疗。在野生动物保护中,FSOD方法可以通过少量数据帮助监测濒危物种,从而支持保护工作。FSOD在工业检测 [166, 228] 中也很有价值,可以通过有限的训练样本检测制造过程中的缺陷或异常,提升质量控制。在安全和监控应用中,FSOD可以通过最少的标注数据检测可疑活动或物体,提高安全性和响应时间。FSOD方法还在其他领域如遥感或多光谱成像 [68, 188] 以及跨领域泛化 [42, 134] 等场景中发挥着重要作用,进一步扩大了其在各个领域中的适用性和影响力。鉴于其日益重要性,近年来传统FSOD设置的更新变种应运而生。探讨近年来文献中FSOD设置的这种扩展是本综述的关键目标。
图2概述了近年来小样本目标检测任务的演进。虽然最初的研究重点集中在标准FSOD上,但随着以下列出的扩展和变种的出现,研究逐渐丰富:
标准小样本目标检测(Standard FSOD)消除了对大量标注训练数据的依赖,其主要关注点在于提高新类的检测性能,而非保持基类的检测性能。Chen 等人在他们的工作 LSTD [11] 中首次提出了这一方向的研究。然而,在现实应用中,学习新类的同时保持基类的性能往往至关重要。为了解决这一挑战,广义小样本目标检测(G-FSOD)和增量小样本目标检测(I-FSOD)这两个任务旨在同时在基类和新类上表现出色。G-FSOD 处理在学习新类的同时,如何有效保留基类知识的问题。TFA [179] 是在 G-FSOD 任务中首次在基类和新类上提供结果的工作。标准 FSOD 和 G-FSOD 都依赖于在学习新类时基类数据的可用性。然而,在现实场景中,在学习新类时获取旧类的数据往往是不现实的。ONCE [140] 首次解决了这一问题,并引入了 I-FSOD 任务。与前述任务不同,I-FSOD 在适应新类时不需要旧类的数据。开放集小样本目标检测(O-FSOD)是另一个 FSOD 子类别,其不仅关注训练类的物体检测,还关注未见类的物体检测。在许多现实场景中,预定义或预标注所有可能的物体类别是不切实际的,因此系统能够识别并处理未包含在初始训练集中的新物体或罕见物体至关重要。Su 等人提出的 FOOD [159] 是该方向上的首个工作。另一个 FSOD 的子类别称为小样本领域自适应目标检测(FSDAOD),涉及将检测器适应到新领域。FSDAOD 在数据丰富的源领域上进行训练,然后适应到仅有少量数据的新领域。这在现实应用中尤为有用,因为为每个可能的领域收集大量标注数据通常是不现实的。Wang 等人 [178] 提出了该方向的首个工作,其能够在仅有少量样本的情况下推广到目标领域。所有这些不同的方法都旨在解决现实场景中数据有限所带来的困难,努力在识别新类和保持已知类的准确性之间取得平衡。上述的标准 FSOD、G-FSOD、I-FSOD、O-FSOD 和 FSDAOD 任务主要根据训练数据的可用性和模型评估的类别进行区分。本综述旨在全面研究这些变种,并分析近年来标准 FSOD 设置之外的发展。我们在第2节中首先比较现有基于 FSOD 的综述论文,并阐明本综述的必要性。然后在第3节中简要介绍目标检测的背景。第4.1节提供了详细的符号和小样本任务之间差异的问题描述。接着,我们在第4.2到第4.6节中全面回顾了与每个小样本任务相关的研究工作。这一详尽的回顾概述了这些方法的最新研究进展。第5节讨论了基准数据集和评估协议。第6节讨论了所有这些方法的结果分析。最后,第7节探讨了该领域的各种研究方向、应用和挑战。