Most of the existing RGB-D salient object detection methods utilize the convolution operation and construct complex interweave fusion structures to achieve cross-modal information integration. The inherent local connectivity of convolution operation constrains the performance of the convolution-based methods to a ceiling. In this work, we rethink this task from the perspective of global information alignment and transformation. Specifically, the proposed method (TransCMD) cascades several cross-modal integration units to construct a top-down transformer-based information propagation path (TIPP). TransCMD treats the multi-scale and multi-modal feature integration as a sequence-to-sequence context propagation and update process built on the transformer. Besides, considering the quadratic complexity w.r.t. the number of input tokens, we design a patch-wise token re-embedding strategy (PTRE) with acceptable computational cost. Experimental results on seven RGB-D SOD benchmark datasets demonstrate that a simple two-stream encoder-decoder framework can surpass the state-of-the-art purely CNN-based methods when it is equipped with the TIPP.


翻译:现有的RGB-D显要物体探测方法大多使用卷发操作,并构建复杂的交织融合结构,以实现跨模式的信息整合。 卷发操作固有的本地连通性限制了以卷发为基础的方法的绩效,使之达到上限。 在这项工作中,我们从全球信息调整和转换的角度重新思考这项任务。 具体地说,拟议的方法(TransCMD)将若干个跨模式集成单位连成,以构建一个自上而下基于变压器的信息传播路径(TIPP)。 TransCMD将多规模和多模式特征整合作为变压器上建立的顺序到序列的传播和更新过程处理。此外,考虑到四重式复杂性( w.r.t.t.)的输入符号数量,我们设计了一个具有可接受计算成本的补全代重装战略。 7个RGB-D SOD基准数据集的实验结果显示,在安装了全新CNNPPP时,简单的双流编码脱coder框架可以超过最先进的纯CNNA型方法。

0
下载
关闭预览

相关内容

Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
相关资讯
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Top
微信扫码咨询专知VIP会员