Existing RGB-T salient object detection methods predominantly rely on manually aligned and annotated datasets, struggling to handle real-world scenarios with raw, unaligned RGB-T image pairs. In practical applications, due to significant cross-modal disparities such as spatial misalignment, scale variations, and viewpoint shifts, the performance of current methods drastically deteriorates on unaligned datasets. To address this issue, we propose an efficient RGB-T SOD method for real-world unaligned image pairs, termed Thin-Plate Spline-driven Semantic Correlation Learning Network (TPS-SCL). We employ a dual-stream MobileViT as the encoder, combined with efficient Mamba scanning mechanisms, to effectively model correlations between the two modalities while maintaining low parameter counts and computational overhead. To suppress interference from redundant background information during alignment, we design a Semantic Correlation Constraint Module (SCCM) to hierarchically constrain salient features. Furthermore, we introduce a Thin-Plate Spline Alignment Module (TPSAM) to mitigate spatial discrepancies between modalities. Additionally, a Cross-Modal Correlation Module (CMCM) is incorporated to fully explore and integrate inter-modal dependencies, enhancing detection performance. Extensive experiments on various datasets demonstrate that TPS-SCL attains state-of-the-art (SOTA) performance among existing lightweight SOD methods and outperforms mainstream RGB-T SOD approaches.


翻译:现有RGB-T显著目标检测方法主要依赖于人工对齐和标注的数据集,难以处理包含原始未对齐RGB-T图像对的真实场景。在实际应用中,由于存在空间错位、尺度变化和视角偏移等显著的跨模态差异,现有方法在未对齐数据集上的性能急剧下降。为解决此问题,我们提出一种面向真实世界未对齐图像对的高效RGB-T显著目标检测方法,称为薄板样条驱动的语义关联学习网络。我们采用双流MobileViT作为编码器,结合高效的Mamba扫描机制,在保持低参数量和计算开销的同时,有效建模双模态间的关联性。为抑制对齐过程中冗余背景信息的干扰,我们设计了语义关联约束模块,以分层方式约束显著特征。此外,我们引入薄板样条对齐模块以缓解模态间的空间差异。同时,通过融入跨模态关联模块,充分挖掘并整合模态间依赖关系,从而提升检测性能。在多个数据集上的大量实验表明,TPS-SCL在现有轻量化显著目标检测方法中达到了最先进的性能水平,并优于主流的RGB-T显著目标检测方法。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
48+阅读 · 2020年12月26日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员