数十年来,计算机视觉的目标一直是让机器能够感知外部世界。最初的局限性促使研究发展出一些高度专业化的细分领域。随着各项任务的逐步成功与研究的推进,越来越复杂的感知任务不断涌现。本综述梳理了这些任务的汇聚过程,并在此基础上提出了 开放世界检测(Open World Detection, OWD) 这一总括性术语,用于统一视觉领域中的类别无关和普适性检测模型。我们从基础视觉子领域的发展历史出发,涵盖构成当今前沿格局的关键概念、方法论和数据集。这一路径包括早期的显著性检测、前景/背景分离、分布外检测,一直延伸到开放世界目标检测、零样本检测以及视觉大语言模型(Vision Large Language Models, VLLMs)。我们探讨了这些子领域之间的交叉与日益融合,以及它们未来可能统一为一个单一领域——感知关键词: 开放世界检测,基础视觉模型,VLLM,计算机视觉 在致力于使机器能够感知和理解世界的过程中,计算机视觉取得了显著进展。最初,该领域通过将复杂挑战划分为更小、更易处理的问题来开展研究。早期的研究集中于边缘检测、图像分类和目标识别等专门任务,从而催生了针对具体任务的算法。尽管这些努力卓有成效,但也凸显了在孤立地处理视觉问题时的局限性。 随着更复杂的机器学习技术的兴起以及计算能力的指数级增长,计算机视觉逐渐转向更加整体化的方法。近年来,得益于海量数据集的整合和大规模多模态基础模型的发展,涌现出了能够同时执行多种视觉任务的模型——图1展示了该领域的一些最新趋势。 开放世界目标检测(Open World Object Detection, OWOD) 一词由 Joseph 等人于 2021 年提出,它将经典的目标检测扩展为能够感知场景中所有可见目标的能力。这种感知不依赖于训练阶段是否显式地向模型呈现某个类别,本质上实现了类别无关的开放世界检测。我们进一步去掉“目标(Object)”的限制,使用 开放世界检测(Open World Detection, OWD) 作为总括性术语,用于指代能够在广泛视觉任务中泛化的检测方法。图2直观地展示了这一 OWD 的概念及其相关的研究子领域。与在封闭且明确定义的类别内运行的传统模型不同,OWD 系统力求识别并适应真实世界环境中的无限多样性。这一研究范式的确立,离不开多个关键视觉细分领域的推动,我们将在本文中对其进行梳理与呈现。

为了全面概述 开放世界检测(OWD) 所涵盖的研究现状,我们将探讨支撑该领域的基础概念、方法论与应用。我们呈现了若干子领域的融合与交叉,包括开放世界目标检测、开放词汇检测、显著性检测、前景/背景分离以及零样本检测。此外,我们还考察了视觉-语言模型(Vision-Language Models, VLMs)和大规模多模态模型(Large Multimodal Models, LMMs)在提升 OWD 系统能力中的作用,并讨论了支持这些模型开发与评估的相关数据集。 通过综合这些子领域的洞见,我们强调了计算机视觉领域日益增强的趋同。这种融合趋势预示着未来不同视觉任务之间的界限将逐渐模糊,从而催生能够无缝应对广泛视觉挑战的统一模型。我们的目标是为研究人员和实践者提供一份详尽的综述,明确当前 OWD 的研究格局,并展望其在根本上改变机器感知和应对复杂世界方式的潜力。 为系统性地探索这种融合并描绘 OWD 的发展轨迹,本文的结构安排如下: * 第2章:分析为 OWD 奠定基础的核心子领域。本章将从显著性检测和前景/背景分离出发,逐步讨论分布外检测与零样本检测,最终过渡到开放世界目标检测以及视觉-语言模型的关键作用。 * 第3章:全面回顾在 OWD 系统训练与评估中至关重要的数据集与基准,提供推动该领域进展的数据格局。 * 第4章:梳理当前的最新进展,描绘视觉检测的主要发展阶段,并突出导致当代方法论出现的范式转变,从而提供该领域演进与现状的结构化理解。 * 第5章:展望未来的研究方向,探讨 OWD 的潜在突破点与新兴可能性,揭示该领域研究的下一个前沿。 * 第6章:综合全文所获得的核心洞见,重申 OWD 的变革性潜力,并给出总结性的视角。

成为VIP会员查看完整内容
0

相关内容

零样本量化:综述
专知会员服务
12+阅读 · 5月15日
《深度表格学习综述》
专知会员服务
43+阅读 · 2024年10月18日
深度图异常检测:综述与新视角
专知会员服务
24+阅读 · 2024年9月19日
《分布外泛化评估》综述
专知会员服务
41+阅读 · 2024年3月6日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
70+阅读 · 2024年2月6日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
实体关系抽取方法研究综述
专知
12+阅读 · 2020年7月19日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
479+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
零样本量化:综述
专知会员服务
12+阅读 · 5月15日
《深度表格学习综述》
专知会员服务
43+阅读 · 2024年10月18日
深度图异常检测:综述与新视角
专知会员服务
24+阅读 · 2024年9月19日
《分布外泛化评估》综述
专知会员服务
41+阅读 · 2024年3月6日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
70+阅读 · 2024年2月6日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
相关资讯
实体关系抽取方法研究综述
专知
12+阅读 · 2020年7月19日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员