数据驱动下的深度学习技术在计算机视觉领域取得重大突破,但模型的高性能严重依赖于大量标注样本的训练。然而在实际场景当中,大规模数据的获取和高质量的标注十分困难,限制了其在特定应用领域的进一步推广。近年来小样本 学习在目标检测领域的发展,为解决上述问题提供了新的研究思路。小样本目标检测旨在通过少量标注样本实现对图像中目标的分类和定位。本文从任务和问题、学习策略、检测方法、数据集与实验评估等角度出发,对当前小样本目标检测的 研究成果加以梳理和总结。首先,系统性地阐述了小样本目标检测的任务定义及核心问题,并讨论了当前方法采用的学习 策略。其次,从工作原理角度出发,将现有检测方法归纳总结为四类,对这四类检测方法的核心思想、特点、优势及存在 的不足进行了系统性的阐述,为不同场景下选择不同的方法提供了依据。之后,本文对目前小样本目标检测采用的典型数 据集、实验设计及性能评估指标进行了深入分析,进而对四类典型方法在数据集上的实验结果进行概括总结,尤其是对部 分典型方法的检测性能进行了系统性对比分析。最后,立足于现有方法的优势和劣势,我们指出当前方法面临的挑战,并 对下一阶段小样本目标检测技术未来的发展趋势提出了见解,期望为该领域的后续研究提供参考。
1. 引言
得益于大规模数据集和硬件技术的发展,基 于深度学习的模型在基础的计算机视觉任务中取 得了令人瞩目的成就[1]。如:图像和视频分类 [2][3]、目标检测[4]、语义分割[5]和图像生成[6]等。 传统监督式的机器学习模型需要借助大规模带标 注的数据进行训练,而现实世界中的视觉数据呈 现显著的长尾效应,数据丰富的类别占据总类别 的大多数,在某些特定应用场景下,一些稀缺的 类别可能由于隐私、安全和高标记成本等因素使 得数据的获取和标注十分困难,例如军事遥感检 测[7]、疾病诊断[8]及工业生产中的残次品检测[9] 等,这为计算机视觉领域的进一步发展带来了挑 战。在有限的训练样本条件下,传统的深度学习 算法无法得到充分的训练,使得深度神经网络模 型易发生过拟合,导致模型的泛化能力受到严重 影响,仅依靠当前深度学习技术难以满足样本较 少的场景和需求[10]。
机器学习与人类智能之间存在显著差异,不 同于深度神经网络,人类擅长从极少的样本示例 中学习认识新事物,并做出准确的预测与评估, 这种高效的数据利用能力正是当前机器学习模型 在实际应用中所需要的。目前数据驱动下的深度 学习模型,其通用性和泛化能力还远不能达到人 类认知学习的水平,弥补这种差距是迈向更高机 器感知能力的关键一步[11]。受人类学习模式的启 发,为解决因训练样本数量较少而带来的模型过 拟合问题,Li等人[12]在2003年首次提出小样本学 习的概念,认为计算机视觉模型的学习应该利用 已获得的先验知识和少量的训练样本学习识别新类别的模型。作为一种新的理论方法,当前小样 本学习主要用于图像分类任务,并取得了突破性 的进展[13][14]。随着研究的不断深入,小样本目标 检测(Few-shot Object Detection, FSOD)逐渐引起学 术界的关注,其核心思想是通过少量的标注样本 的训练来对图像中的目标进行分类和定位[15],通 过设计合理的训练方法、模型结构和损失函数, 获得具有一定泛化能力的检测模型,实现复杂环 境下对小样本目标的有效检测,在数据获取和标 注困难的场景下具有重要的价值和意义。相比于 小样本图像分类任务,小样本目标检测更具挑 战,其原因在于在识别目标类标签的基础上,还 需进一步定位每个目标在图像中的位置[16],因而 对模型的数据利用能力提出了更高的要求。因 此,在数据稀缺场景下,如何利用极少的标注样 本进行学习,设计具有良好泛化能力的检测模 型,并推广至新任务上,成为小样本目标检测亟 待解决的问题。
随着小样本学习关注度的增加,小样本目标 检测技术迅速发展,已成为热门研究方向。目 前,已有四篇关于小样本目标检测的综述文献 [17][18][19][20]。潘等人[17]主要对该领域发展初期的工 作进行综述,将小样本目标检测方法分为三类, 但是,该文献发表于2019年,未涉及之后的研究 成果。目前,小样本目标检测技术的发展日新月 异,2019年之后涌现大量新的检测方法,本文则 全面、系统性对当前小样本目标检测技术进行梳 理和总结。张等人[18]从小样本目标检测的问题定 义、主要方法和实验设计等方面进行阐述。然 而,该文献仅 选取几种小样本检测模型在 PASCAL VOC[21]数据集上进行对比分析,缺乏对 其他数据集的详细论述与评估,本文则对数据 集、实验设计及典型方法的检测效果等内容进行 全面、完整地评估与分析。刘等人从数据、模型 和算法三个角度阐述了小样本目标检测的解决方 案与存在的难点。Leng等人[20]则根据数据稀缺程 度将小样本目标检测分为有限监督、半监督和弱 监督三种场景设置,基于这三种场景讨论面临的 挑战和解决方法。但是,这两项工作均缺乏对较 新的研究成果与数据集及实验的归纳总结。随着 时代的发展,小样本目标检测技术突飞猛进,各 种新理论、新思想、新方法的研究不断涌现,以上综述已不能满足该领域蓬勃发展的需求,使得 初学者难以窥其全貌。 不同于现有研究综述,本文的主要贡献可总 结如下:
(1)系统性梳理了小样本目标检测技术,涵 盖了现有的小样本目标检测方法以及目前最新的 研究成果。本文通过梳理小样本目标检测方法的 发展脉络,从任务和问题、学习策略、检测方法 及数据集和实验等角度出发,对当前的研究成果 进行了全面、细致地归纳和梳理,系统性总结了 小样本目标检测任务定义及三个核心问题,讨论 了现有方法采用的两种学习策略,涵盖了较新的 研究成果。
(2)分类角度独特,方法间的对比直观清晰。本文按照工作原理将当前检测方法分为四 类,根据研究思路对每类方法进行更为精细的归 类,分类角度更加合理,使读者能够快速了解每 类检测方法的工作原理。同时,以表格的形式对 四类方法采用的学习策略、优缺点及适用场景进 行了总结,使读者能够根据不同的场景选择和使 用不同的小样本目标检测方法。
(3)对数据集、实验设计及典型方法的检测 效果等内容进行全面、完整地梳理与概括。本文 详细论述了当前小样本目标检测常用的四个数据 集、实验设计细节、性能评估指标及典型方法性 能对比等内容,以图表的方式对不同方法在四个 数据集上的实验结果进行了系统性评估,使读者 能够快速掌握该领域当前的研究热点。本文旨在 为该领域的研究者提供一个包含最新方法的综 述,加深对小样本目标检测研究的理解,进一步 促进小样本目标检测技术的发展。
本文的组织结构如图 1所示,第2节给出了小 样本目标检测的任务定义及三个关键问题;第3节 讨论了现有方法的两种学习策略;第4节从工作原 理、问题及存在的不足等方面对现有的小样本目 标检测方法进行分类阐述;第5节对数据集与实验 等内容进行系统性地归纳总结,对四类典型方法 在数据集上的实验结果进行了对比分析;第6节梳 理了小样本目标检测面临的挑战,并指出了一些 潜在的发展方向,供更多相关研究者参考和借 鉴;最后第7节总结全文。
2. 任务定义
小样本目标检测任务旨在通过少量标注样本 的训练来对图像中的目标进行分类和准确定位, 以此得到具有良好泛化能力的检测模型。该任务 可描述为:给定数据集𝐷𝑏𝑎𝑠𝑒和𝐷𝑛𝑜𝑣𝑒𝑙,𝐷𝑏𝑎𝑠𝑒表示 基类数据集,每个类别有充足的标注训练样本, 𝐷𝑛𝑜𝑣𝑒𝑙表示新类数据集,每类仅有少量标注样本 (通常少于10个)。基类和新类中的类别不重叠, 即𝐶𝑏𝑎𝑠𝑒 ∩ 𝐶𝑛𝑜𝑣𝑒𝑙 = ∅。给定测试图像𝑥,预测𝑥中 的𝑁个目标的类别{𝑐𝑙𝑠𝑖 }𝑖=1 𝑁 ∈ 𝐶𝑏𝑎𝑠𝑒 ∪ 𝐶𝑛𝑜𝑣𝑒𝑙和边界 框坐标{𝑏𝑜𝑥𝑖 }𝑖=1 𝑁 ,小样本目标检测的目标是借助 在丰富注释的基类中学习的先验知识和少量的新 类训练样本实现对测试图像中目标的预测。
3. 学习策略
针对小样本下的模型训练问题,当前的小样 本目标检测方法通常采用两种学习策略,即**:基 于任务的episode训练策略**[25]和基于数据驱动的训 练策略[26]。前者以任务为基本单元,每个任务的 数据集分为支持集和查询集,其目标是从大量训 练任务中获取先验知识,从而能够通过少量数据 在新任务中更快地学习。整个训练流程可分为元 训练和元测试两个阶段:在元训练阶段,通过组 合不同的训练集构建不同的元任务,使得模型学 习独立于任务的泛化能力;在元测试阶段,模型 不需要重新训练或仅需少量迭代次数即可学习新 任务,最终实现“学会学习”。后者采用“预训练 -微调”的训练范式[27],直接针对数据集进行训 练,在具有大量注释的基类数据集上进行预训练 获得基类检测模型,在小样本数据集上进行微调 泛化至新类。
4. 检测方法
目前,针对小样本目标检测问题,国内外学 者提出了一系列方法,主要是借助现有的成熟的 检测框架和小样本学习方法,构建面向样本稀缺 下的检测模型。早期研究阶段通常采用较少标记 数据的半监督方法和不完全匹配标记数据的弱监 督方法,核心是通过收集额外的易注释标签的训 练示例来缓解目标检测中注释困难的问题[29]。因 缺乏对训练图像充分的监督及复杂的模型设计, 难以泛化至标记数据较少的新类上,从而导致新 类的检测性能较差。 近年来,小样本目标检测研究取得了重大突 破,从工作原理的角度出发,我们将小样本目标 检测方法分为基于元学习的方法、基于迁移学习 的方法、基于数据增强的方法以及基于度量学习 的方法四类。表 1对这四类方法进行了简要地概括 和对比。
5. 数据集与实验
6. 尚存问题与发展趋势
6.1 当前面临的挑战
当前小样本目标检测发展迅速,已引起研究 者们的持续关注。然而,解决该问题的技术尚处 于学术探索的阶段,其性能与大规模数据集下的 目标检测技术存在很大差距。就目前的研究现状 而言,仍面临如下几个方面的问题与挑战,下面 我们进行分析并探讨相关应对思路。
(1) 小样本目标检测中的过拟合问题
当数据量较少时,深度检测模型更易发生过 拟合现象,当前小样本目标检测模型的泛化能力 在实际应用中还存在很大的差距[30][37]。与大规模 数据训练的目标检测方法相比,小样本目标检测方法的性能还有待提升。针对过拟合问题,可以 从两个方面解决:一是从模型设计的角度出发, 提出一种良好的迁移策略来降低模型过拟合程 度,如正则化策略等[37];二是从数据的角度出 发,进行数据扩增或数据增强来提升模型的性能 [42][102]。
(2) 小样本目标检测中的定位问题
当前小样本检测方法重点研究分类任务,将 先验知识用于检测模型的边界框分类上,而对于 定位任务,一般采用候选区域与类别无关的思想 [94]。但在实际检测过程中,同类目标产生的候选 区域可能被判定为背景,导致现有的小样本检测 方法与大数据下的目标检测方法存在较大差距, 错检漏检问题严重,使得模型的泛化能力受到严 重的影响[30][31][46]。在样本数据缺乏的情况下如何 更有效的提取目标的位置信息,融入类别信息至 候选区域网络,产生更有效的候选区域,从而提 升复杂场景下的定位准确度是未来需要解决的问 题。
(3) 增量小样本目标检测问题
由于有限的计算资源或数据隐私问题,可能 导致基类的训练数据访问受限,而当前小样本目 标检测方法在很大程度上限制了在该场景下的可 扩展性和适用性[103][104],尤其是在开放式或机器 人学习环境下的实际部署中基本上无法扩展。因 此,增量小样本目标检测应运而生。鉴于当前研 究还处于起步阶段,仅有少量文献对其进行研究, 目前缺乏行之有效的方法。在增量小样本目标检 测中,仅用少量新类数据进行训练,达到检测所 有可见类别的目标;该场景存在以下两方面问题: 一是因新类数据较少导致的过拟合问题;二是因 缺乏基类数据导致的灾难性遗忘问题。针对以上 问题,可以借鉴类增量小样本学习中的相关方法, 引入知识蒸馏方法来解决遗忘问题,采用少量新 类样本实现真正意义上的增量小样本检测[105][106]。
(4) 弱监督小样本目标检测问题
与小样本目标检测相比,弱监督小样本目标 检测的新类样本仅提供少量的目标图像及类别标 签信息,缺乏边界框标注信息,该场景更具挑战 性[107]。其中,Yang 等人[108]基于度量学习框架提 出 了 一 种 纳米监督的目标检测 方 法(NanoSupervised Object Detection, NSOD),该方法挖掘 了所有支持图像的原型和查询图像的RoI特征间关系,利用支持类原型为每个查询RoI特征赋予一个 伪标签,然后通过学习一个老师模型来完善查询 RoI 特征的伪标签。该方法利用少量带注释的图像 将图像级标签迁移至未标记图像中实例级的边界 框。但是该方法计算的类原型可能包含噪声,影 响最终的检测效果。Shaban 等人[109]在预训练的嵌 入空间中采用冯·米塞斯分布(von Mises distribution),从而更好地捕捉语义信息正态分布;在新 类别定位时,学习了一个线性外观模型来检测新 图像中的新类别,并在大规模的弱监督目标检测 和少量样本下的弱监督目标检测任务中均取得了 较好的性能。Karlinsky 等人[110]提出了一种星状网 络 StartNet,利用图像间的几何匹配关系进行定位 和分类,实现了弱监督下的小样本目标检测。以 上工作相对独立,相关研究不够完善,没有统一 的数据集和算法性能评估标准,这些问题亟待突 破。 (5) 域适应小样本目标检测问题 当前小样本目标检测方法主要针对同域不同 类问题,即基类和新类数据的类别标签不同,但 属于同一数据域,而域适应小样本目标检测主要 关注同类不同域问题,即基类和新类数据标签相 同 , 但 属 于 不 同 的 域 , 如 基 类 数 据 来 自 于 PASCAL VOC 或 MSCOCO 等自然景物图像数据集, 而新类数据可能是线条简笔画或卡通图像等 [111][112][113]。 域适应小样本目标检测是面向具体场景开展 研究的,与小样本目标检测存在互补关系。但是 域适应小样本目标检测仍处于起步阶段,当前研 究还不成熟,未来可以考虑将域适应小样本目标 检测和小样本目标检测进行融合,解决同类不同 域和不同类不同域下的小样本目标检测问题[114]。
6.2 小样本目标检测的发展趋势
基于以上分析,基于现有的小样本检测方法 可衍生三个未来值得深入研究的方向。
(1) 持续增量小样本目标检测 现实场景中的单个检测任务仅有少量带注释 的训练图像,而大量的新任务会依次出现。这样 的场景一般用于无人机探测任务[115]、无人驾驶 [116]和机器人应用[117]等。大量的已有工作仅仅是 面对单个的小样本检测任务,如何从小样本检测 中继承迁移学习的思想,快速吸收新的检测任务而不忘记旧的检测任务,实现连续的小样本目标 检测仍然需要进行深入研究。未来可以将元学习 与增量小样本目标检测方法相结合,探索相似任 务的关联性,并应用至具体场景,以较小的推理 代价快速适应新的任务[118][119]。
**(2) 弱监督或域适应小样本目标检测 **目标域图像仅有少量图像级标签注释,不需 要很大的数据集,不需要边界框注释,仅需图像 级标签,适合仅给定图像的目标分类和检测[120]。 与监督小样本目标检测方法相比,该设定不需要 手动标记注释框,更加现实,用于机器人技术[121] 或视频目标分割[122]等应用场景中学习新类的检测 模型。然而,当前弱监督小样本目标检测的研究 还处于起步阶段,其模型性能与全监督下的小样 本目标检测性能相比还有很大差距,未来还需进 一步研究和探索。域适应小样本目标检测作为小 样本目标检测的一种特殊应用,未来可扩展至复 杂情况下的域适应小样本目标检测场景,如标签 空间不一致和复杂目标域情况下的域适应小样本 目标检测等场景[123]。
(3) 小样本目标检测的应用 结合学术研究和实际需求,开发面向用户的 智能检测系统,仅需少量样本需要同时识别出未 知类别和已知类别,并不断地进行增量学习。其 中,主动学习主要是针对数据标签较少或打标签 “代价”较高这一场景而设计的[124][125],选择数据 集上信息量较大的样本来降低标记成本,以尽可 能少的标注样本实现高检测性能。未来可以将小 样本目标检测与主动学习相结合,选择信息量较 大的少量标注样本,让模型利用较少的标记数据 获得较好性能。除了计算机视觉任务,其他领域 的小样本目标检测同样值得探索,未来希望能够 扩展至机器人中的视觉导航、医学领域中罕见药 物的发现以及时间序列异常检测等诸多领域。
7. 总 结
小样本目标检测是目标检测领域新兴的问 题,具有很大的应用价值。目前,关于系统性介 绍小样本目标检测的中文文献相对缺失,不利于 研究人员对该领域快速且深入地了解。鉴于此, 本文对当前小样本目标检测的相关文献进行了分 类整理和概括总结,对该领域的研究进展进行了 广泛且全面的描述。首先,描述了小样本目标检 测的任务定义及核心问题。然后,针对小样本下 的模型训练问题详细地阐述了两种学习策略。按 照工作原理将现有的小样本检测方法分为元学 习、迁移学习、数据增强和度量学习四种学习范 式,对这四类算法进行了系统、全面的总结,重 点梳理了不同方法的核心思想、适用范围及优劣 势,并对每类方法的下一步研究提出了见解,我 们发现源域到目标域的知识迁移、目标域少量样 本的数据或特征表示增强和边界框的分类是小样 本目标检测的关键。尤其是,本文系统性地总结 了当前小样本目标检测的四个数据集,对四类方 法在数据集上的实验结果进行了详细的对比分 析,最后归纳了小样本目标检测所面临的挑战与 困境,并对未来可能的三个发展趋势进行了总结 和探讨。 总体而言,小样本目标检测取得了很大进 展,但各类方法都有各自的适用场景和局限性, 现有算法仅停留在有限监督下的小样本目标检测 场景,较难实现复杂场景下少量样本的目标检 测,如:持续增量学习、弱监督或域适应等小样 本目标检测场景。其中,面向无人机和机器人场 景的持续增量小样本检测研究偏少,缺乏相应的 试验性验证。弱监督或域适应小样本目标检测尚 处于起步阶段,还需要根据特定的领域知识和任 务特性设计有针对性的小样本检测算法。同时, 算法的实际应用也存在挑战,在多种人工智能领 域中具有广泛的应用价值和研究意义。因此,这 些复杂场景下的小样本目标检测方法及其应用仍 然是需要努力的目标。最后,希望本文能够促进 其他学者对该领域的进一步探索,为该领域的未 来研究提供有力的参考和帮助。