Most existing lightweight RGB-D salient object detection (SOD) models are based on two-stream structure or single-stream structure. The former one first uses two sub-networks to extract unimodal features from RGB and depth images, respectively, and then fuses them for SOD. While, the latter one directly extracts multi-modal features from the input RGB-D images and then focuses on exploiting cross-level complementary information. However, two-stream structure based models inevitably require more parameters and single-stream structure based ones cannot well exploit the cross-modal complementary information since they ignore the modality difference. To address these issues, we propose to employ the middle-level fusion structure for designing lightweight RGB-D SOD model in this paper, which first employs two sub-networks to extract low- and middle-level unimodal features, respectively, and then fuses those extracted middle-level unimodal features for extracting corresponding high-level multi-modal features in the subsequent sub-network. Different from existing models, this structure can effectively exploit the cross-modal complementary information and significantly reduce the network's parameters, simultaneously. Therefore, a novel lightweight SOD model is designed, which contains a information-aware multi-modal feature fusion (IMFF) module for effectively capturing the cross-modal complementary information and a lightweight feature-level and decision-level feature fusion (LFDF) module for aggregating the feature-level and the decision-level saliency information in different stages with less parameters. Our proposed model has only 3.9M parameters and runs at 33 FPS. The experimental results on several benchmark datasets verify the effectiveness and superiority of the proposed method over some state-of-the-art methods.


翻译:现有大多数轻量 RGB-D 显著物体探测(SOD) 模型以双流结构或单流结构为基础,前者首先使用两个子网络分别从 RGB 和深度图像中提取单式特征,然后将其结合到 SOD 中。虽然后者直接从输入 RGB-D 图像中提取多式特征,然后侧重于利用跨层次补充信息。然而,基于双流结构的模型不可避免地需要更多的参数,基于单流结构的模型无法充分利用跨模式补充信息,因为它们忽略了模式的差异。为了解决这些问题,我们提议在本文件中使用两个分网络的中层集成结构来分别从RGB-D 和深度图像中提取单式特征,然后将那些提取中层的单行特征用于在随后的子网络中提取相应的高层次多式模式拟议特征。这一结构可以有效地利用跨模式补充信息,同时在网络的中层的RGB-DOD S-DF 模型中, 水平的跨级补充性模型模型的模型中, 一种新式的SMA 模型级的模型和模型级的模型级的模型级的模型的模型的模型的模型, 的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型

1
下载
关闭预览

相关内容

超氧化物歧化酶(Superoxide dismutase,SOD)是生物体系中抗氧化酶系的重要组成成员,广泛分布在微生物、植物和动物体内
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
“CVPR 2020 接受论文列表 1470篇论文都在这了
模式国重实验室21篇论文入选CVPR 2020
专知
30+阅读 · 2020年3月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
Arxiv
11+阅读 · 2019年4月15日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年5月16日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
模式国重实验室21篇论文入选CVPR 2020
专知
30+阅读 · 2020年3月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
相关论文
Top
微信扫码咨询专知VIP会员