摘要—伪装目标检测(Camouflaged Object Detection, COD)指的是识别和分割那些与周围环境无缝融合的目标的任务,这对计算机视觉系统构成了重大挑战。近年来,由于其在监控、野生动物保护、自主系统等领域的潜在应用,COD引起了广泛关注。尽管已有一些关于COD的综述存在,但它们通常在所覆盖的论文数量和范围上存在局限性,特别是自2023年中期以来该领域的快速进展。为弥补这一空缺,我们呈现了迄今为止最全面的COD综述,涵盖了该领域的理论框架和实际贡献。本文从传统方法和深度学习方法的角度,探讨了四个领域内的各种COD方法,包括图像级别和视频级别的解决方案。我们深入研究了COD与其他伪装场景方法之间的关联,从而为后续分析奠定理论基础。此外,我们还探讨了之前研究未充分涉及的新任务,如基于引用的COD和协作式COD。除了目标级别的检测外,我们还总结了实例级别任务的扩展方法,包括伪装实例分割、计数和排序。此外,我们概述了COD任务中常用的基准测试和评估指标,对图像和视频领域基于深度学习的技术进行了全面评估,考虑了定性和定量的表现。最后,我们讨论了当前COD模型的局限性,并提出了9个未来研究的有前景方向,重点解决固有挑战并探索新的、有意义的技术。这一全面的审查旨在加深对COD模型及其在伪装场景中的相关方法的理解。对于感兴趣的读者,可以在https://github.com/ChunmingHe/awesome-concealed-object-segmentation找到一份精心整理的COD相关技术、数据集和其他资源的列表。关键词—伪装目标检测、伪装场景理解、深度学习、人工智能
1 引言
目标检测是计****算机视觉中的一项基础任务,涉及识别和定位图像或视频中的目标。它包含多个细分领域:通用目标检测(GOD)[1]–[4]、显著目标检测(SOD)[5]–[7]和伪装目标检测(COD)[8]–[10]。GOD的目标是检测一般对象,而SOD识别那些从背景中突显出来的显著对象。相比之下,COD针对的是那些与周围环境融合在一起的目标,这使得它成为一项极具挑战性的任务。图1展示了GOD、SOD和COD任务中目标狗与背景的关系,这些图像来自经典数据集[11]–[13]。近年来,COD因其在促进视觉感知的细微差别识别方面的优势,以及在实际生活应用中广泛的价值,如工业中的隐蔽缺陷检测[14]、农业中的害虫监测[15]、[16]、医学诊断中的病灶分割[17]以及艺术领域,如娱乐艺术[18]和照片真实感融合[19],而获得了越来越多的关注和快速发展。然而,与GOD和SOD不同,COD涉及检测那些被设计成难以察觉的目标,如图1右侧的斑点狗因与周围环境伪装在一起而难以检测到,这需要更为复杂的检测策略。COD可进一步分为图像和视频任务[20]、[21]。普通的COD,即图像级别COD,用于检测静态图像中的伪装目标,而视频级别COD,称为VCOD,则用于检测视频序列中的这些目标。后者由于时间连续性和动态变化的引入而增加了复杂性,要求模型能够有效地提取空间和时间特征。
传统的COD和VCOD方法,包括纹理[22]、强度[23]、颜色[24]、运动[25]、光流[26]和多模态分析[27],在特定场景中展示了它们的优势,但也表现出明显的缺陷。这些依赖于手工设计操作符的方法在特征提取能力上有限,因此在处理复杂背景和变化的目标外观时,准确性和鲁棒性受到了限制。相比之下,基于深度学习的COD方法,如卷积神经网络(CNN)、变换器(Transformer)和扩散模型(Diffusion Model),通过自动学习丰富的特征表示,提供了显著优势[8]、[10]。此外,这些方法采用了多种策略来应对这一挑战性任务,例如,多尺度特征聚合[28]–[32]、仿生机制模拟[13]、[20]、[33]–[37]、多源信息融合[10]、[15]、[38]–[40]、多任务学习[9]、[41]–[44]、联合SOD[40]、[45]–[47]以及新任务设定[48]–[52]。尽管这些方法具有优势,但也面临难以克服的挑战,包括高计算需求[53]和对大量标注、干净且成对数据集的需求[29]。已有几篇关于COD的综述文章,其中三篇开创性的工作[54]–[56]为该领域提供了宝贵的概述。然而,这些综述由于涵盖的范围有限和涉及的论文数量不足而存在局限性。例如,这些综述中讨论的大多数方法来自2023年上半年之前,导致在历史深度和领域广度上存在不足。如图2所示,COD领域在2023年发展迅速。为弥补这些空白,我们提出了一篇更为全面的综述,涵盖了图像和视频领域中的传统和深度学习COD方法,并基准测试了这些领域中的深度学习模型。此外,据我们所知,这篇综述是首篇深入探索如基于引用的COD[49]和协作式COD[51]等新任务的综述。我们还对常用的COD数据集进行了更广泛的回顾,并全面覆盖了最新的进展、挑战和未来趋势。本文的动机源于COD的重要性以及现有综述的不足。我们的综述旨在对COD进行更为深入和详细的探讨,填补当前文献中的空白,并强调最近的发展。我们系统地分类和分析了现有的前沿技术,识别关键挑战,并提出未来研究方向,以推动该领域的发展。我们的贡献总结如下:
我们对现有的COD方法和伪装场景理解(CSU)相关任务,以及常用的数据集和评估指标进行了全面的综述。据我们所知,这项工作代表了迄今为止最广泛的调查,涵盖了大约180篇CSU相关的前沿研究。
我们系统地基准测试了基于深度特征的40个代表性图像级模型和8个代表性视频级模型,使用6个特征性数据集和6个典型评估指标,并对它们进行了定量和定性分析。
我们系统地识别了现有COD方法的局限性,并提出了未来研究的潜在方向。通过揭示这些挑战和机会,我们的工作旨在指导和激发进一步的研究,以推进COD技术的前沿发展。
我们创建了一个存储COD方法、数据集和相关资源的库,并将持续更新以确保最新信息的可获取性。 我们希望这篇COD综述不仅能加深对该领域的理解,还能在计算机视觉社区中激发更大的兴趣,促进相关领域的进一步研究。注意:在制定我们的搜索策略时,我们对包括DBLP、Google Scholar和ArXiv Sanity Preserver在内的多种数据库进行了深入调查。我们的重点特别放在可信来源上,如TPAMI和IJCV,以及CVPR、ICCV和ECCV等著名会议。我们优先考虑了那些提供官方代码以增强可重复性的研究,以及那些引用率高且在Github上获得较多星标的研究,这些都表明它们在学术界得到了显著认可和采用。在初步筛选之后,我们的文献选择过程涉及对每篇论文的新颖性、贡献和重要性的严格评估,并评估其在该领域中作为开创性工作的地位。尽管我们承认可能遗漏了一些值得注意的论文,但我们的目标是呈现对最具影响力和影响力的研究的全面概述,推动研究进展并提出未来的潜在趋势和方向。