Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.


翻译:多模态(MM)图像融合旨在呈现保留不同模态优点的融合图像,例如功能突出和详细纹理。为了解决建模跨模态特征和分解理想模态特定和模态共享特征的挑战,我们提出了一种新的基于相关性驱动特征分解融合(CDDFuse)网络。首先,CDDFuse采用Restormer块提取跨模态浅层特征。然后,我们引入了一个采用Lite Transformer(LT)块的双分支Transformer-CNN特征提取器,利用长程注意力处理低频全局特征,以及采用以Invertible Neural Networks(INN)块为主的提取高频局部信息。根据嵌入的信息进一步提出了基于相关性驱动的损失,使低频特征相关而高频特征不相关。然后,基于LT的全局融合和基于INN的局部融合层输出融合图像。大量实验表明,我们的CDDFuse在多个融合任务中取得了良好的结果,包括红外-可见光图像融合和医学图像融合。我们还展示了CDDFuse可以在统一基准测试中提高红外-可见光语义分割和目标检测的性能。代码可在https://github.com/Zhaozixiang1228/MMIF-CDDFuse找到。

0
下载
关闭预览

相关内容

ECCV 2022 | 底层视觉新任务:Blind Image Decomposition
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】学习紧密的几何特征(ICCV2017-17)
泡泡机器人SLAM
20+阅读 · 2018年5月8日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2020年10月19日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
相关资讯
ECCV 2022 | 底层视觉新任务:Blind Image Decomposition
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】学习紧密的几何特征(ICCV2017-17)
泡泡机器人SLAM
20+阅读 · 2018年5月8日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员