小样本目标检测研究综述

数据驱动下的深度学习技术在计算机视觉领域取得重大突破，但模型的高性能严重依赖于大量标注样本的训练。然而在实际场景当中，大规模数据的获取和高质量的标注十分困难，限制了其在特定应用领域的进一步推广。近年来小样本学习在目标检测领域的发展，为解决上述问题提供了新的研究思路。小样本目标检测旨在通过少量标注样本实现对图像中目标的分类和定位。本文从任务和问题、学习策略、检测方法、数据集与实验评估等角度出发，对当前小样本目标检测的研究成果加以梳理和总结。首先，系统性地阐述了小样本目标检测的任务定义及核心问题，并讨论了当前方法采用的学习策略。其次，从工作原理角度出发，将现有检测方法归纳总结为四类，对这四类检测方法的核心思想、特点、优势及存在的不足进行了系统性的阐述，为不同场景下选择不同的方法提供了依据。之后，本文对目前小样本目标检测采用的典型数据集、实验设计及性能评估指标进行了深入分析，进而对四类典型方法在数据集上的实验结果进行概括总结，尤其是对部分典型方法的检测性能进行了系统性对比分析。最后，立足于现有方法的优势和劣势，我们指出当前方法面临的挑战，并对下一阶段小样本目标检测技术未来的发展趋势提出了见解，期望为该领域的后续研究提供参考。

1. 引言

得益于大规模数据集和硬件技术的发展，基于深度学习的模型在基础的计算机视觉任务中取得了令人瞩目的成就[1]。如：图像和视频分类 [2][3]、目标检测[4]、语义分割[5]和图像生成[6]等。传统监督式的机器学习模型需要借助大规模带标注的数据进行训练，而现实世界中的视觉数据呈现显著的长尾效应，数据丰富的类别占据总类别的大多数，在某些特定应用场景下，一些稀缺的类别可能由于隐私、安全和高标记成本等因素使得数据的获取和标注十分困难，例如军事遥感检测[7]、疾病诊断[8]及工业生产中的残次品检测[9] 等，这为计算机视觉领域的进一步发展带来了挑战。在有限的训练样本条件下，传统的深度学习算法无法得到充分的训练，使得深度神经网络模型易发生过拟合，导致模型的泛化能力受到严重影响，仅依靠当前深度学习技术难以满足样本较少的场景和需求[10]。

机器学习与人类智能之间存在显著差异，不同于深度神经网络，人类擅长从极少的样本示例中学习认识新事物，并做出准确的预测与评估，这种高效的数据利用能力正是当前机器学习模型在实际应用中所需要的。目前数据驱动下的深度学习模型，其通用性和泛化能力还远不能达到人类认知学习的水平，弥补这种差距是迈向更高机器感知能力的关键一步[11]。受人类学习模式的启发，为解决因训练样本数量较少而带来的模型过拟合问题，Li等人[12]在2003年首次提出小样本学习的概念，认为计算机视觉模型的学习应该利用已获得的先验知识和少量的训练样本学习识别新类别的模型。作为一种新的理论方法，当前小样本学习主要用于图像分类任务，并取得了突破性的进展[13][14]。随着研究的不断深入，小样本目标检测(Few-shot Object Detection, FSOD)逐渐引起学术界的关注，其核心思想是通过少量的标注样本的训练来对图像中的目标进行分类和定位[15]，通过设计合理的训练方法、模型结构和损失函数，获得具有一定泛化能力的检测模型，实现复杂环境下对小样本目标的有效检测，在数据获取和标注困难的场景下具有重要的价值和意义。相比于小样本图像分类任务，小样本目标检测更具挑战，其原因在于在识别目标类标签的基础上，还需进一步定位每个目标在图像中的位置[16]，因而对模型的数据利用能力提出了更高的要求。因此，在数据稀缺场景下，如何利用极少的标注样本进行学习，设计具有良好泛化能力的检测模型，并推广至新任务上，成为小样本目标检测亟待解决的问题。

随着小样本学习关注度的增加，小样本目标检测技术迅速发展，已成为热门研究方向。目前，已有四篇关于小样本目标检测的综述文献 [17][18][19][20]。潘等人[17]主要对该领域发展初期的工作进行综述，将小样本目标检测方法分为三类，但是，该文献发表于2019年，未涉及之后的研究成果。目前，小样本目标检测技术的发展日新月异，2019年之后涌现大量新的检测方法，本文则全面、系统性对当前小样本目标检测技术进行梳理和总结。张等人[18]从小样本目标检测的问题定义、主要方法和实验设计等方面进行阐述。然而，该文献仅选取几种小样本检测模型在 PASCAL VOC[21]数据集上进行对比分析，缺乏对其他数据集的详细论述与评估，本文则对数据集、实验设计及典型方法的检测效果等内容进行全面、完整地评估与分析。刘等人从数据、模型和算法三个角度阐述了小样本目标检测的解决方案与存在的难点。Leng等人[20]则根据数据稀缺程度将小样本目标检测分为有限监督、半监督和弱监督三种场景设置，基于这三种场景讨论面临的挑战和解决方法。但是，这两项工作均缺乏对较新的研究成果与数据集及实验的归纳总结。随着时代的发展，小样本目标检测技术突飞猛进，各种新理论、新思想、新方法的研究不断涌现，以上综述已不能满足该领域蓬勃发展的需求，使得初学者难以窥其全貌。 不同于现有研究综述，本文的主要贡献可总结如下：

（1）系统性梳理了小样本目标检测技术，涵盖了现有的小样本目标检测方法以及目前最新的研究成果。本文通过梳理小样本目标检测方法的发展脉络，从任务和问题、学习策略、检测方法及数据集和实验等角度出发，对当前的研究成果进行了全面、细致地归纳和梳理，系统性总结了小样本目标检测任务定义及三个核心问题，讨论了现有方法采用的两种学习策略，涵盖了较新的研究成果。

（2）分类角度独特，方法间的对比直观清晰。本文按照工作原理将当前检测方法分为四类，根据研究思路对每类方法进行更为精细的归类，分类角度更加合理，使读者能够快速了解每类检测方法的工作原理。同时，以表格的形式对四类方法采用的学习策略、优缺点及适用场景进行了总结，使读者能够根据不同的场景选择和使用不同的小样本目标检测方法。

（3）对数据集、实验设计及典型方法的检测效果等内容进行全面、完整地梳理与概括。本文详细论述了当前小样本目标检测常用的四个数据集、实验设计细节、性能评估指标及典型方法性能对比等内容，以图表的方式对不同方法在四个数据集上的实验结果进行了系统性评估，使读者能够快速掌握该领域当前的研究热点。本文旨在为该领域的研究者提供一个包含最新方法的综述，加深对小样本目标检测研究的理解，进一步促进小样本目标检测技术的发展。

本文的组织结构如图 1所示，第2节给出了小样本目标检测的任务定义及三个关键问题；第3节讨论了现有方法的两种学习策略；第4节从工作原理、问题及存在的不足等方面对现有的小样本目标检测方法进行分类阐述；第5节对数据集与实验等内容进行系统性地归纳总结，对四类典型方法在数据集上的实验结果进行了对比分析；第6节梳理了小样本目标检测面临的挑战，并指出了一些潜在的发展方向，供更多相关研究者参考和借鉴；最后第7节总结全文。

2. 任务定义

小样本目标检测任务旨在通过少量标注样本的训练来对图像中的目标进行分类和准确定位，以此得到具有良好泛化能力的检测模型。该任务可描述为：给定数据集𝐷𝑏𝑎𝑠𝑒和𝐷𝑛𝑜𝑣𝑒𝑙，𝐷𝑏𝑎𝑠𝑒表示基类数据集，每个类别有充足的标注训练样本， 𝐷𝑛𝑜𝑣𝑒𝑙表示新类数据集，每类仅有少量标注样本（通常少于10个）。基类和新类中的类别不重叠，即𝐶𝑏𝑎𝑠𝑒 ∩ 𝐶𝑛𝑜𝑣𝑒𝑙 = ∅。给定测试图像𝑥，预测𝑥中的𝑁个目标的类别{𝑐𝑙𝑠𝑖 }𝑖=1 𝑁 ∈ 𝐶𝑏𝑎𝑠𝑒 ∪ 𝐶𝑛𝑜𝑣𝑒𝑙和边界框坐标{𝑏𝑜𝑥𝑖 }𝑖=1 𝑁 ，小样本目标检测的目标是借助在丰富注释的基类中学习的先验知识和少量的新类训练样本实现对测试图像中目标的预测。

3. 学习策略

针对小样本下的模型训练问题，当前的小样本目标检测方法通常采用两种学习策略，即**：基于任务的episode训练策略**[25]和基于数据驱动的训练策略[26]。前者以任务为基本单元，每个任务的数据集分为支持集和查询集，其目标是从大量训练任务中获取先验知识，从而能够通过少量数据在新任务中更快地学习。整个训练流程可分为元训练和元测试两个阶段：在元训练阶段，通过组合不同的训练集构建不同的元任务，使得模型学习独立于任务的泛化能力；在元测试阶段，模型不需要重新训练或仅需少量迭代次数即可学习新任务，最终实现“学会学习”。后者采用“预训练 -微调”的训练范式[27]，直接针对数据集进行训练，在具有大量注释的基类数据集上进行预训练获得基类检测模型，在小样本数据集上进行微调泛化至新类。

4. 检测方法

目前，针对小样本目标检测问题，国内外学者提出了一系列方法，主要是借助现有的成熟的检测框架和小样本学习方法，构建面向样本稀缺下的检测模型。早期研究阶段通常采用较少标记数据的半监督方法和不完全匹配标记数据的弱监督方法，核心是通过收集额外的易注释标签的训练示例来缓解目标检测中注释困难的问题[29]。因缺乏对训练图像充分的监督及复杂的模型设计，难以泛化至标记数据较少的新类上，从而导致新类的检测性能较差。近年来，小样本目标检测研究取得了重大突破，从工作原理的角度出发，我们将小样本目标检测方法分为基于元学习的方法、基于迁移学习的方法、基于数据增强的方法以及基于度量学习的方法四类。表 1对这四类方法进行了简要地概括和对比。

5. 数据集与实验

6. 尚存问题与发展趋势

6.1 当前面临的挑战

当前小样本目标检测发展迅速，已引起研究者们的持续关注。然而，解决该问题的技术尚处于学术探索的阶段，其性能与大规模数据集下的目标检测技术存在很大差距。就目前的研究现状而言，仍面临如下几个方面的问题与挑战，下面我们进行分析并探讨相关应对思路。

(1) 小样本目标检测中的过拟合问题

当数据量较少时，深度检测模型更易发生过拟合现象，当前小样本目标检测模型的泛化能力在实际应用中还存在很大的差距[30][37]。与大规模数据训练的目标检测方法相比，小样本目标检测方法的性能还有待提升。针对过拟合问题，可以从两个方面解决：一是从模型设计的角度出发，提出一种良好的迁移策略来降低模型过拟合程度，如正则化策略等[37]；二是从数据的角度出发，进行数据扩增或数据增强来提升模型的性能 [42][102]。

(2) 小样本目标检测中的定位问题

当前小样本检测方法重点研究分类任务，将先验知识用于检测模型的边界框分类上，而对于定位任务，一般采用候选区域与类别无关的思想 [94]。但在实际检测过程中，同类目标产生的候选区域可能被判定为背景，导致现有的小样本检测方法与大数据下的目标检测方法存在较大差距，错检漏检问题严重，使得模型的泛化能力受到严重的影响[30][31][46]。在样本数据缺乏的情况下如何更有效的提取目标的位置信息，融入类别信息至候选区域网络，产生更有效的候选区域，从而提升复杂场景下的定位准确度是未来需要解决的问题。

(3) 增量小样本目标检测问题

由于有限的计算资源或数据隐私问题，可能导致基类的训练数据访问受限，而当前小样本目标检测方法在很大程度上限制了在该场景下的可扩展性和适用性[103][104]，尤其是在开放式或机器人学习环境下的实际部署中基本上无法扩展。因此，增量小样本目标检测应运而生。鉴于当前研究还处于起步阶段，仅有少量文献对其进行研究，目前缺乏行之有效的方法。在增量小样本目标检测中，仅用少量新类数据进行训练，达到检测所有可见类别的目标；该场景存在以下两方面问题：一是因新类数据较少导致的过拟合问题；二是因缺乏基类数据导致的灾难性遗忘问题。针对以上问题，可以借鉴类增量小样本学习中的相关方法，引入知识蒸馏方法来解决遗忘问题，采用少量新类样本实现真正意义上的增量小样本检测[105][106]。

(4) 弱监督小样本目标检测问题

与小样本目标检测相比，弱监督小样本目标检测的新类样本仅提供少量的目标图像及类别标签信息，缺乏边界框标注信息，该场景更具挑战性[107]。其中，Yang 等人[108]基于度量学习框架提出了一种纳米监督的目标检测方法(NanoSupervised Object Detection, NSOD)，该方法挖掘了所有支持图像的原型和查询图像的RoI特征间关系，利用支持类原型为每个查询RoI特征赋予一个伪标签，然后通过学习一个老师模型来完善查询 RoI 特征的伪标签。该方法利用少量带注释的图像将图像级标签迁移至未标记图像中实例级的边界框。但是该方法计算的类原型可能包含噪声，影响最终的检测效果。Shaban 等人[109]在预训练的嵌入空间中采用冯·米塞斯分布(von Mises distribution)，从而更好地捕捉语义信息正态分布；在新类别定位时，学习了一个线性外观模型来检测新图像中的新类别，并在大规模的弱监督目标检测和少量样本下的弱监督目标检测任务中均取得了较好的性能。Karlinsky 等人[110]提出了一种星状网络 StartNet，利用图像间的几何匹配关系进行定位和分类，实现了弱监督下的小样本目标检测。以上工作相对独立，相关研究不够完善，没有统一的数据集和算法性能评估标准，这些问题亟待突破。 (5) 域适应小样本目标检测问题当前小样本目标检测方法主要针对同域不同类问题，即基类和新类数据的类别标签不同，但属于同一数据域，而域适应小样本目标检测主要关注同类不同域问题，即基类和新类数据标签相同，但属于不同的域，如基类数据来自于 PASCAL VOC 或 MSCOCO 等自然景物图像数据集，而新类数据可能是线条简笔画或卡通图像等 [111][112][113]。域适应小样本目标检测是面向具体场景开展研究的，与小样本目标检测存在互补关系。但是域适应小样本目标检测仍处于起步阶段，当前研究还不成熟，未来可以考虑将域适应小样本目标检测和小样本目标检测进行融合，解决同类不同域和不同类不同域下的小样本目标检测问题[114]。

6.2 小样本目标检测的发展趋势

基于以上分析，基于现有的小样本检测方法可衍生三个未来值得深入研究的方向。

(1) 持续增量小样本目标检测 现实场景中的单个检测任务仅有少量带注释的训练图像，而大量的新任务会依次出现。这样的场景一般用于无人机探测任务[115]、无人驾驶 [116]和机器人应用[117]等。大量的已有工作仅仅是面对单个的小样本检测任务，如何从小样本检测中继承迁移学习的思想，快速吸收新的检测任务而不忘记旧的检测任务，实现连续的小样本目标检测仍然需要进行深入研究。未来可以将元学习与增量小样本目标检测方法相结合，探索相似任务的关联性，并应用至具体场景，以较小的推理代价快速适应新的任务[118][119]。

**(2) 弱监督或域适应小样本目标检测 **目标域图像仅有少量图像级标签注释，不需要很大的数据集，不需要边界框注释，仅需图像级标签，适合仅给定图像的目标分类和检测[120]。与监督小样本目标检测方法相比，该设定不需要手动标记注释框，更加现实，用于机器人技术[121] 或视频目标分割[122]等应用场景中学习新类的检测模型。然而，当前弱监督小样本目标检测的研究还处于起步阶段，其模型性能与全监督下的小样本目标检测性能相比还有很大差距，未来还需进一步研究和探索。域适应小样本目标检测作为小样本目标检测的一种特殊应用，未来可扩展至复杂情况下的域适应小样本目标检测场景，如标签空间不一致和复杂目标域情况下的域适应小样本目标检测等场景[123]。

(3) 小样本目标检测的应用 结合学术研究和实际需求，开发面向用户的智能检测系统，仅需少量样本需要同时识别出未知类别和已知类别，并不断地进行增量学习。其中，主动学习主要是针对数据标签较少或打标签 “代价”较高这一场景而设计的[124][125]，选择数据集上信息量较大的样本来降低标记成本，以尽可能少的标注样本实现高检测性能。未来可以将小样本目标检测与主动学习相结合，选择信息量较大的少量标注样本，让模型利用较少的标记数据获得较好性能。除了计算机视觉任务，其他领域的小样本目标检测同样值得探索，未来希望能够扩展至机器人中的视觉导航、医学领域中罕见药物的发现以及时间序列异常检测等诸多领域。

7. 总结

小样本目标检测是目标检测领域新兴的问题，具有很大的应用价值。目前，关于系统性介绍小样本目标检测的中文文献相对缺失，不利于研究人员对该领域快速且深入地了解。鉴于此，本文对当前小样本目标检测的相关文献进行了分类整理和概括总结，对该领域的研究进展进行了广泛且全面的描述。首先，描述了小样本目标检测的任务定义及核心问题。然后，针对小样本下的模型训练问题详细地阐述了两种学习策略。按照工作原理将现有的小样本检测方法分为元学习、迁移学习、数据增强和度量学习四种学习范式，对这四类算法进行了系统、全面的总结，重点梳理了不同方法的核心思想、适用范围及优劣势，并对每类方法的下一步研究提出了见解，我们发现源域到目标域的知识迁移、目标域少量样本的数据或特征表示增强和边界框的分类是小样本目标检测的关键。尤其是，本文系统性地总结了当前小样本目标检测的四个数据集，对四类方法在数据集上的实验结果进行了详细的对比分析，最后归纳了小样本目标检测所面临的挑战与困境，并对未来可能的三个发展趋势进行了总结和探讨。总体而言，小样本目标检测取得了很大进展，但各类方法都有各自的适用场景和局限性，现有算法仅停留在有限监督下的小样本目标检测场景，较难实现复杂场景下少量样本的目标检测，如：持续增量学习、弱监督或域适应等小样本目标检测场景。其中，面向无人机和机器人场景的持续增量小样本检测研究偏少，缺乏相应的试验性验证。弱监督或域适应小样本目标检测尚处于起步阶段，还需要根据特定的领域知识和任务特性设计有针对性的小样本检测算法。同时，算法的实际应用也存在挑战，在多种人工智能领域中具有广泛的应用价值和研究意义。因此，这些复杂场景下的小样本目标检测方法及其应用仍然是需要努力的目标。最后，希望本文能够促进其他学者对该领域的进一步探索，为该领域的未来研究提供有力的参考和帮助。

成为VIP会员查看完整内容