半监督目标检测：从卷积神经网络（CNN）到 Transformer 的进展综述

半监督学习的显著进展推动了研究人员在计算机视觉领域探索其在目标检测任务中的潜力。半监督目标检测（SSOD）利用小规模标注数据集和大规模未标注数据集的组合，有效减少了对大规模标注数据集的依赖，这些数据集通常昂贵且耗时。最初，SSOD模型在有效利用未标注数据和管理生成的未标注数据伪标签中的噪声方面遇到了挑战。然而，许多最近的进展已经解决了这些问题，导致SSOD性能显著提升。本文全面回顾了27项最前沿的SSOD方法发展，从卷积神经网络（CNNs）到Transformers。我们深入探讨了半监督学习的核心组件及其在目标检测框架中的整合，涵盖数据增强技术、伪标签策略、一致性正则化和对抗训练方法。此外，我们对各种SSOD模型进行了比较分析，评估它们的性能和架构差异。我们旨在激发更多关于克服现有挑战和探索半监督学习在目标检测中新方向的研究兴趣。

深度学习 [42], [43], [44], [45] 已成为一个活跃的研究领域，并在模式识别 [46], [47]、数据挖掘 [48], [49]、统计学习 [50], [51]、计算机视觉 [52], [53] 和自然语言处理 [54], [54], [55] 等多个领域中有着广泛的应用。特别是在有监督学习环境中，深度学习通过有效利用大量高质量的标注数据，取得了显著的成就。然而，这些有监督学习方法 [56], [57], [58] 依赖于昂贵且耗时的标注数据进行训练。半监督目标检测 (SSOD) [59] 通过结合标注数据和未标注数据 [60] 来弥补这一缺口，在计算机视觉领域 [52], [53] 尤其是在获取大规模标注数据 [59] 具有挑战性或成本高昂的行业中显示出显著进步。SSOD 应用于包括自动驾驶汽车 [61], [62] 和医学影像 [63], [64] 在内的各个行业。在农业 [65] [66] 和制造业 [67] 等数据丰富但标注耗时的行业中，SSOD 有助于提高效率。

半监督方法 [68], [69] 通过利用未标注和标注数据 [70], [71] 提升模型性能并减少标注需求。此外，以前的目标检测方法 [72], [73] 主要涉及手动特征工程 [74], [75] 和简单模型的使用。这些方法在准确识别不同形状和尺寸的物体时遇到困难。后来，卷积神经网络 (CNNs) [77], [78] 的引入，通过直接从原始数据中提取分层特征 [79]，实现了端到端学习 [80]，大大提高了准确性和有效性。近年来，半监督目标检测在深度学习架构 [81], [82]、优化技术 [83] 和数据集增强策略 [84], [85], [86], [87] 的推动下取得了显著进步。研究人员开发了各种针对目标检测的半监督学习 (SSL) 方法，每种方法都有其独特的优缺点 [88], [89], [90]。这些方法主要分为伪标签 [91], [92], [93] 和一致性正则化 [94]，两者在训练过程中都有效利用了标注和未标注数据。此外，将SSL方法与最先进的目标检测架构（如FCOS [95]，Faster R-CNN [96] 和 YOLO [97]）相结合，显著提升了半监督目标检测系统的性能和可扩展性。这种结合不仅提高了检测准确性，还帮助模型在处理新的和未见过的数据集时表现良好。

随着DEtection TRansformer（DETR） [98], [99], [100] 的出现，目标检测取得了显著进展。Transformers最初为自然语言处理 [54], [54], [55] 开发，在捕捉长距离依赖关系 [101] 和上下文信息 [102], [103] 方面表现出色，使其在复杂空间排列的目标检测中理想 [104], [105]。与依赖于局部卷积并需要非极大值抑制 (NMS) [106] 来过滤冗余检测的CNNs [78], [79], [80] 不同，DETR使用自注意力机制 [107], [108]，不需要NMS。它将目标检测任务视为直接的集合预测问题，消除了传统的NMS [106] 和锚生成 [109] 过程。尽管有优势，DETR仍存在如训练期间收敛速度慢和小物体检测困难等局限性。为了应对这些问题，DETR通过改进的注意力机制和优化技术 [110] 提高了性能和效率。在DETR取得成功后，研究人员现在在半监督目标检测方法中采用基于DETR的网络 [1], [2], [3]，结合DETR的优势与半监督学习，利用未标注数据 [88], [94]，减少对大规模标注数据的需求。

由于基于transformer的半监督目标检测（SSOD） [60], [111] 方法的快速进步，跟上最新进展变得越来越具有挑战性。因此，从基于CNN到基于Transformer的SSOD方法的最新发展进行回顾对于该领域的研究人员具有重要意义。本文对从基于CNN到基于Transformer的半监督目标检测（SSOD）方法的转变进行了全面概述。如图1所示，综述将SSOD方法分为基于CNN（单阶段和两阶段） [4], [6], [7], [8], [10], [24], [27], [45] 和基于Transformer的方法 [1], [2], [3]，重点介绍了伪标签和基于一致性的标注等技术。它还详细介绍了包括强、弱和混合技术在内的数据增强策略 [85], [86], [87], [112], [113], [114], [115]。

图2展示了一种为半监督目标检测量身定制的教师-学生架构。一个预训练的教师模型用于为未标注数据生成伪标签。这些伪标签与标注数据一起用于共同训练学生模型。通过结合伪标注数据，学生模型从更广泛和多样化的数据集中学习，增强其准确检测物体的能力。此外，数据增强方法也应用于标注和伪标注数据集。这种协同学习方法有效利用了标注和未标注数据，提高了目标检测系统的整体性能。本文其余部分组织如下：第2节回顾了以前的SSOD综述。第3节讨论了该领域的相关工作。第8节探讨了SSOD在各种视觉任务中的作用。第4节是本文的核心，提供了SSOD方法的全面概述。第5节研究了SSOD中使用的不同损失函数。第6节对SSOD方法进行了比较分析。第7节解决了开放的挑战和未来的方向。最后，第9节对本文进行了总结。