当代大多数感知模型依赖于基于Transformer的架构,如用于目标检测的DETR和用于图像分割的Mask2Former。这些框架的核心概念是通过查询的形式从图像特征中提取目标,强调了查询设计的重要性。 在本论文中,我们探讨了通过创新的查询设计,将局部先验整合到全局注意力机制中的方法,具体应用于DN-DETR和DINO。这些设计包括:1. 将查询概念化为锚框;2. 在每一层解码器中预测相对的目标位置;3. 通过辅助去噪任务使查询与目标边界框接近;4. 战略性地初始化查询并结合选择过程。这些进展在性能和训练效率上都取得了显著的提高。因此,我们的DINO成为许多顶级检测模型所采用的最强检测头。 在开放世界感知领域,定义对象是一个根本性的挑战。在计算机视觉中,视觉提示常用于在开放世界环境中识别对象,功能类似于闭集感知中的查询。
为了解决这一问题,我们引入了Semantic-SAM,一个将视觉提示整合到查询的位置信息组件中的新模型。Semantic-SAM在广泛的SA-1B视觉提示数据集上进行训练,达到了与SAM相媲美的性能。然而,直接使用视觉提示作为查询会限制其格式,并排除了需要记忆提示的多轮交互。为克服这一问题,我们开发了SEEM,它通过跨注意力机制将视觉提示与查询相结合。SEEM在引入时在交互式分割任务中表现出最佳结果。 随着语言模型的发展,语言提示在计算机视觉中的重要性愈加受到关注。我们提出了OpenSEED,一种利用对比学习将语言提示与查询对齐的方法,在零-shot分割任务中取得了最佳性能。采用类似对比学习方法的LLaVAGrounding在指代表达理解(REC)和指代表达分割(RES)任务中表现优异,超越了同等规模的其他多模态大语言模型(LLMs)。此外,SEEM通过跨注意力机制将查询与语言和视觉提示融合。我们提出的技术,包括利用对比学习来匹配查询与提示,以及通过跨注意力进行融合,现已广泛应用于开放世界感知策略中。 仅仅定位对象不足以满足当代应用的需求,如自动驾驶,其中了解车辆的速度和意图也至关重要。随着大型语言模型(LLMs)的兴起,理解对象变成了一个开放的问答挑战,要求感知模型能够回答关于任何对象的问题。为了更深入地理解对象,我们提出了LLaVA-Grounding模型,它将感知模型与多模态提示和LLMs相结合,使其能够解读用户提示并理解对象。
总之,本论文通过引入有效的查询设计,推动了开放世界感知的发展,这些设计通过整合局部先验来增强对象定位能力。论文还提出了匹配和整合提示信息与查询的创新策略,极大地丰富了感知研究。此外,还提出了在感知模型上建立多模态LLM,以更深入地理解对象