随着基础模型的出现,基于深度学习的目标检测器在封闭集场景中展现出了实际的可用性。然而,对于现实世界的任务而言,目标检测器往往在开放环境中运作,其中影响模型学习的关键因素(例如,数据分布、目标)经常在变化。开放环境的动态复杂性给目标检测器带来了新颖而巨大的挑战。不幸的是,当前对开放环境中目标检测器的研究缺乏对它们独特特性、挑战及相应解决方案的全面分析,这阻碍了它们在关键的现实世界场景中的安全部署。本文旨在通过对开放环境中目标检测器进行全面的综述和分析来弥补这一差距。我们最初识别了现有检测管道内关键结构组件的局限性,并提出了包括四个象限(即,领域外、类别外、鲁棒学习和增量学习)的开放环境目标检测器挑战框架,基于数据/目标变化的维度。对于提出框架中的每一个挑战象限,我们提供了详细的描述和系统的分析,概括了总体目标和核心难点,系统地回顾了相应的解决方案,并在多个广泛采用的数据集上对它们的性能进行了基准测试。此外,我们还讨论了开放问题和未来研究的潜在途径。本文旨在提供一个新鲜的、全面的、系统的对开放环境目标检测器的挑战与解决方案的理解,从而催化更加坚固的应用在现实世界场景中的发展。与此综述相关的项目可以在 https://github.com/LiangSiyuan21/OEOD_Survey 找到。
目标检测作为计算机视觉中的基础任务之一,通过预测给定图像中视觉对象的位置和类别来识别实例。随着深度神经网络的发展,尤其是基础模型的出现,深度目标检测[1]、[2]、[3]受到了广泛关注,并成为自动驾驶[4]、医疗保健[5]、人脸检测[6]、[7]等各个应用领域的基础构件。特别是,深度目标检测器的有效性主要依赖于闭集假设,即有限、已知和定义良好的结构[8]。例如,用于训练和测试的数据满足相同的分布,学习过程针对不变的目标任务(良性示例上的标签分类和位置回归)进行优化。由于日益具有挑战性的任务的驱动,实际深度检测器应用场景的环境从闭合逐渐演变为开放[8]。在开放环境中,模型学习过程的关键因素(例如,数据分布和目标任务)可能随着时间和周围环境发生动态变化。例如,开放环境可能在测试期间引入模型在训练期间未遇到的新类别,甚至带有可能干扰模型决策的噪声。开放环境设置紧密地反映了现实世界情况,要求深度检测器展现出增强的鲁棒性和可扩展性,有效地应对未预见的变化和挑战。
一些综述专门关注了深度目标检测器面临开放环境中特定挑战时的性能,如域适应问题[9]。更多相关综述可以在附录材料A中找到。然而,仍然不存在对开放环境中目标检测器的独特特性、挑战及相应解决方案进行全面和整体分析的研究,这阻碍了它们在关键的现实世界场景中的安全部署。这篇综述通过全面检查开放环境中的目标检测器,强调深度检测模型对数据变异性和目标变化的韧性,弥补了这一差距。特别地,我们首先进行结构分析,以识别现有检测管道内的脆弱性。随后,我们提出了一个四象限分类框架,清晰地展示了这些挑战在数据变化和目标变化两个维度上的相互作用和区别,分别在水平轴和垂直轴上表示。通过界定每个象限,我们提供了对每个特定上下文中深度目标检测器的公式、挑战和潜在解决方案的详细分析。我们还定量基准测试并讨论了在多个广泛采用的检测数据集上回顾的方法。此外,我们强调了每个问题领域的前瞻性研究方向,并强调加强这些挑战之间联系的重要性。图1中展示的研究趋势突显了研究者在这一领域的日益增长的兴趣和积极参与。这强调了我们对开放环境中目标检测的详细回顾的重要性,旨在阐明和解决目标检测器面临的挑战,并鼓励在现实世界中的创新解决方案。我们的贡献可以总结如下:
这项综述首次开发了一个四象限分类法,涵盖了开放环境中目标检测器面临的主要挑战。此外,我们的分析深入探讨了深度目标检测架构的脆弱性,阐明了模块之间与挑战之间的关系。
基于挑战框架,我们强调了开放环境目标检测器的四个关键目标,并对特定问题及其相关解决方案进行了深入的审视。
我们还定量基准测试了回顾的方法在多个广泛采用的检测数据集上,并探索了开放环境目标检测未来发展的潜在方向。
本文的其余部分组织如下。第2节描述了深度目标检测器的发展趋势并介绍了开放环境问题。第3节分析了现有检测器每个组件的脆弱性以及在开放环境中的总体目标。第4、5、6和7节分别详细介绍了领域外、类别外、鲁棒学习和增量学习在开放环境中的挑战、困难和解决方案。第8节总结并基准测试了现有方法在多个数据集上的性能。第9节总结了这项工作并讨论了几个潜在的研究方向。