Existing CNNs-Based RGB-D Salient Object Detection (SOD) networks are all required to be pre-trained on the ImageNet to learn the hierarchy features which can help to provide a good initialization. However, the collection and annotation of large-scale datasets are time-consuming and expensive. In this paper, we utilize Self-Supervised Representation Learning (SSL) to design two pretext tasks: the cross-modal auto-encoder and the depth-contour estimation. Our pretext tasks require only a few and unlabeled RGB-D datasets to perform pre-training, which make the network capture rich semantic contexts as well as reduce the gap between two modalities, thereby providing an effective initialization for the downstream task. In addition, for the inherent problem of cross-modal fusion in RGB-D SOD, we propose a multi-path fusion (MPF) module that splits a single feature fusion into multi-path fusion to achieve an adequate perception of consistent and differential information. The MPF module is general and suitable for both cross-modal and cross-level feature fusion. Extensive experiments on six benchmark RGB-D SOD datasets, our model pre-trained on the RGB-D dataset ($6,335$ without any annotations) can perform favorably against most state-of-the-art RGB-D methods pre-trained on ImageNet ($1,280,000$ with image-level annotations).


翻译:CNN 现有 CNN 的 RGB-D 显眼对象探测(SOD) 网络都需在图像网络上接受预先培训,以了解有助于良好初始化的等级特征。然而,大型数据集的收集和批注耗时费钱。在本文中,我们利用自我浏览演示学习(SSL)来设计两个托辞任务:跨模式自动编码器和深度内容估计。我们的托辞任务只需要少数和未贴标签的 RGB-D 数据集来进行预培训,从而使得网络能够捕捉丰富的网络语义背景,并缩小两种模式之间的差距,从而为下游任务提供有效的初始化。此外,对于跨模式融合RGB-D SOD的固有问题,我们建议采用多途径聚合模块,将一个单一的特性组合成多方向组合,以便充分认识一致和差异的信息。 MPF 模块对于跨模式、跨模式、跨模式、跨层次的 RD 数据定位系统,可以对六级基准级的 RGB-RD 数据库进行一般和适合。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
5+阅读 · 2018年4月17日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关资讯
Top
微信扫码咨询专知VIP会员