随着基础模型的出现,基于深度学习的目标检测器在封闭集场景中展现出了实际的可用性。然而,对于现实世界的任务而言,目标检测器往往在开放环境中运作,其中影响模型学习的关键因素(例如,数据分布、目标)经常在变化。开放环境的动态复杂性给目标检测器带来了新颖而巨大的挑战。不幸的是,当前对开放环境中目标检测器的研究缺乏对它们独特特性、挑战及相应解决方案的全面分析,这阻碍了它们在关键的现实世界场景中的安全部署。本文旨在通过对开放环境中目标检测器进行全面的综述和分析来弥补这一差距我们最初识别了现有检测管道内关键结构组件的局限性,并提出了包括四个象限(即,领域外、类别外、鲁棒学习和增量学习)的开放环境目标检测器挑战框架,基于数据/目标变化的维度。对于提出框架中的每一个挑战象限,我们提供了详细的描述和系统的分析,概括了总体目标和核心难点,系统地回顾了相应的解决方案,并在多个广泛采用的数据集上对它们的性能进行了基准测试。此外,我们还讨论了开放问题和未来研究的潜在途径。本文旨在提供一个新鲜的、全面的、系统的对开放环境目标检测器的挑战与解决方案的理解,从而催化更加坚固的应用在现实世界场景中的发展。与此综述相关的项目可以在 https://github.com/LiangSiyuan21/OEOD_Survey 找到。

目标检测作为计算机视觉中的基础任务之一,通过预测给定图像中视觉对象的位置和类别来识别实例。随着深度神经网络的发展,尤其是基础模型的出现,深度目标检测[1]、[2]、[3]受到了广泛关注,并成为自动驾驶[4]、医疗保健[5]、人脸检测[6]、[7]等各个应用领域的基础构件。特别是,深度目标检测器的有效性主要依赖于闭集假设,即有限、已知和定义良好的结构[8]。例如,用于训练和测试的数据满足相同的分布,学习过程针对不变的目标任务(良性示例上的标签分类和位置回归)进行优化。由于日益具有挑战性的任务的驱动,实际深度检测器应用场景的环境从闭合逐渐演变为开放[8]。在开放环境中,模型学习过程的关键因素(例如,数据分布和目标任务)可能随着时间和周围环境发生动态变化。例如,开放环境可能在测试期间引入模型在训练期间未遇到的新类别,甚至带有可能干扰模型决策的噪声。开放环境设置紧密地反映了现实世界情况,要求深度检测器展现出增强的鲁棒性和可扩展性,有效地应对未预见的变化和挑战。

一些综述专门关注了深度目标检测器面临开放环境中特定挑战时的性能,如域适应问题[9]。更多相关综述可以在附录材料A中找到。然而,仍然不存在对开放环境中目标检测器的独特特性、挑战及相应解决方案进行全面和整体分析的研究,这阻碍了它们在关键的现实世界场景中的安全部署。这篇综述通过全面检查开放环境中的目标检测器,强调深度检测模型对数据变异性和目标变化的韧性,弥补了这一差距。特别地,我们首先进行结构分析,以识别现有检测管道内的脆弱性。随后,我们提出了一个四象限分类框架,清晰地展示了这些挑战在数据变化和目标变化两个维度上的相互作用和区别,分别在水平轴和垂直轴上表示。通过界定每个象限,我们提供了对每个特定上下文中深度目标检测器的公式、挑战和潜在解决方案的详细分析。我们还定量基准测试并讨论了在多个广泛采用的检测数据集上回顾的方法。此外,我们强调了每个问题领域的前瞻性研究方向,并强调加强这些挑战之间联系的重要性。图1中展示的研究趋势突显了研究者在这一领域的日益增长的兴趣和积极参与。这强调了我们对开放环境中目标检测的详细回顾的重要性,旨在阐明和解决目标检测器面临的挑战,并鼓励在现实世界中的创新解决方案。我们的贡献可以总结如下:

这项综述首次开发了一个四象限分类法,涵盖了开放环境中目标检测器面临的主要挑战。此外,我们的分析深入探讨了深度目标检测架构的脆弱性,阐明了模块之间与挑战之间的关系。

基于挑战框架,我们强调了开放环境目标检测器的四个关键目标,并对特定问题及其相关解决方案进行了深入的审视

我们还定量基准测试了回顾的方法在多个广泛采用的检测数据集上,并探索了开放环境目标检测未来发展的潜在方向

本文的其余部分组织如下。第2节描述了深度目标检测器的发展趋势并介绍了开放环境问题。第3节分析了现有检测器每个组件的脆弱性以及在开放环境中的总体目标。第4、5、6和7节分别详细介绍了领域外、类别外、鲁棒学习和增量学习在开放环境中的挑战、困难和解决方案。第8节总结并基准测试了现有方法在多个数据集上的性能。第9节总结了这项工作并讨论了几个潜在的研究方向。

成为VIP会员查看完整内容
38

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器遗忘:分类、指标、应用、挑战与展望
专知会员服务
32+阅读 · 3月16日
持续学习的研究进展与趋势
专知会员服务
39+阅读 · 3月8日
端到端自动驾驶:挑战与前沿
专知会员服务
48+阅读 · 2023年7月3日
模仿学习综述:传统与新进展
专知会员服务
52+阅读 · 2023年2月18日
「分布式机器学习系统网络性能优化」研究进展
专知会员服务
27+阅读 · 2022年10月1日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
38+阅读 · 2021年8月31日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
「基于通信的多智能体强化学习」 进展综述
【AI与医学】多模态机器学习精准医疗健康
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
机器遗忘:分类、指标、应用、挑战与展望
专知会员服务
32+阅读 · 3月16日
持续学习的研究进展与趋势
专知会员服务
39+阅读 · 3月8日
端到端自动驾驶:挑战与前沿
专知会员服务
48+阅读 · 2023年7月3日
模仿学习综述:传统与新进展
专知会员服务
52+阅读 · 2023年2月18日
「分布式机器学习系统网络性能优化」研究进展
专知会员服务
27+阅读 · 2022年10月1日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
38+阅读 · 2021年8月31日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
相关资讯
「基于通信的多智能体强化学习」 进展综述
【AI与医学】多模态机器学习精准医疗健康
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员