RGB-D saliency detection integrates information from both RGB images and depth maps to improve prediction of salient regions under challenging conditions. The key to RGB-D saliency detection is to fully mine and fuse information at multiple scales across the two modalities. Previous approaches tend to apply the multi-scale and multi-modal fusion separately via local operations, which fails to capture long-range dependencies. Here we propose a transformer-based network to address this issue. Our proposed architecture is composed of two modules: a transformer-based within-modality feature enhancement module (TWFEM) and a transformer-based feature fusion module (TFFM). TFFM conducts a sufficient feature fusion by integrating features from multiple scales and two modalities over all positions simultaneously. TWFEM enhances feature on each scale by selecting and integrating complementary information from other scales within the same modality before TFFM. We show that transformer is a uniform operation which presents great efficacy in both feature fusion and feature enhancement, and simplifies the model design. Extensive experimental results on six benchmark datasets demonstrate that our proposed network performs favorably against state-of-the-art RGB-D saliency detection methods.


翻译:RGB-显要性探测将来自RGB图像和深度地图的信息结合起来,以改进在具有挑战性的条件下对显要地区的预测。RGB-显要性探测的关键是,在两种模式的多个尺度上完全开采和集成信息。以前的方法倾向于通过当地作业分别使用多尺度和多模式的聚合,而当地作业未能捕捉长距离依赖性。我们在这里建议一个基于变压器的网络来解决这一问题。我们提议的结构由两个模块组成:一个基于变压器的内调特点增强模块(TWFEM)和一个基于变压器的特征融合模块(TFFM)。TFFM通过同时将多个尺度和所有位置的两种模式结合起来,进行充分的特征融合。TFEM通过选择和整合在TFMFM之前同一模式内其他尺度中的补充性信息,提高每个尺度的特征。我们表明变压器是一种统一的运作,在特性融合和特性增强方面都具有极大的功效,并且简化了模型设计。关于六个基准数据集的广泛实验结果表明,我们提议的网络对州测得式RD的RD方法的有利性。

0
下载
关闭预览

相关内容

ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
30+阅读 · 2021年10月13日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
29+阅读 · 2020年10月9日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Keras实现基于MSCNN的人群计数
AI科技评论
8+阅读 · 2019年2月11日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
6+阅读 · 2021年11月12日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
6+阅读 · 2018年7月9日
VIP会员
相关资讯
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Keras实现基于MSCNN的人群计数
AI科技评论
8+阅读 · 2019年2月11日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员