Visual Place Recognition (VPR) is a major challenge for robotics and autonomous systems, with the goal of predicting the location of an image based solely on its visual features. State-of-the-art (SOTA) models extract global descriptors using the powerful foundation model DINOv2 as backbone. These models either explore the cross-image correlation or propose a time-consuming two-stage re-ranking strategy to achieve better performance. However, existing works only utilize the final output of DINOv2, and the current cross-image correlation causes unstable retrieval results. To produce both discriminative and constant global descriptors, this paper proposes stable cross-image correlation enhanced model for VPR called SciceVPR. This model explores the full potential of DINOv2 in providing useful feature representations that implicitly encode valuable contextual knowledge. Specifically, SciceVPR first uses a multi-layer feature fusion module to capture increasingly detailed task-relevant channel and spatial information from the multi-layer output of DINOv2. Secondly, SciceVPR considers the invariant correlation between images within a batch as valuable knowledge to be distilled into the proposed self-enhanced encoder. In this way, SciceVPR can acquire fairly robust global features regardless of domain shifts (e.g., changes in illumination, weather and viewpoint between pictures taken in the same place). Experimental results demonstrate that the base variant, SciceVPR-B, outperforms SOTA one-stage methods with single input on multiple datasets with varying domain conditions. The large variant, SciceVPR-L, performs on par with SOTA two-stage models, scoring over 3% higher in Recall@1 compared to existing models on the challenging Tokyo24/7 dataset. Our code will be released at https://github.com/shuimushan/SciceVPR.


翻译:视觉位置识别(VPR)是机器人与自主系统面临的主要挑战,其目标在于仅依据图像的视觉特征来预测其地理位置。当前最先进的模型以强大的基础模型DINOv2为骨干网络提取全局描述符。这些模型或探索跨图像相关性,或提出耗时的两阶段重排序策略以提升性能。然而,现有工作仅利用了DINOv2的最终输出,且当前的跨图像关联方法易导致检索结果不稳定。为生成兼具区分性与稳定性的全局描述符,本文提出一种用于VPR的稳定跨图像关联增强模型SciceVPR。该模型充分挖掘DINOv2在提供有用特征表示方面的潜力,这些特征隐式编码了有价值的上下文知识。具体而言,SciceVPR首先通过多层特征融合模块,从DINOv2的多层输出中捕获逐渐细化的任务相关通道与空间信息。其次,SciceVPR将批次内图像间的不变相关性视为有价值的知识,并将其蒸馏至提出的自增强编码器中。通过这种方式,SciceVPR能够获得相当鲁棒的全局特征,而不受领域偏移的影响(例如同一地点拍摄图片间的光照、天气与视角变化)。实验结果表明,基础变体SciceVPR-B在多个具有不同领域条件的数据集上,其性能优于当前最先进的单阶段单输入方法。大型变体SciceVPR-L与当前最先进的两阶段模型性能相当,在具有挑战性的Tokyo24/7数据集上,其Recall@1指标较现有模型提升超过3%。我们的代码将在https://github.com/shuimushan/SciceVPR发布。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员