While convolutional neural networks have shown a tremendous impact on various computer vision tasks, they generally demonstrate limitations in explicitly modeling long-range dependencies due to the intrinsic locality of the convolution operation. Initially designed for natural language processing tasks, Transformers have emerged as alternative architectures with innate global self-attention mechanisms to capture long-range dependencies. In this paper, we propose TransDepth, an architecture that benefits from both convolutional neural networks and transformers. To avoid the network losing its ability to capture local-level details due to the adoption of transformers, we propose a novel decoder that employs attention mechanisms based on gates. Notably, this is the first paper that applies transformers to pixel-wise prediction problems involving continuous labels (i.e., monocular depth prediction and surface normal estimation). Extensive experiments demonstrate that the proposed TransDepth achieves state-of-the-art performance on three challenging datasets. Our code is available at: https://github.com/ygjwd12345/TransDepth.


翻译:虽然共生神经网络对各种计算机视觉任务产生了巨大影响,但一般而言,由于演化行动的内在位置,这些网络在明确模拟远距离依赖性方面存在局限性,因为演化行动的内在位置,这些网络为自然语言处理任务设计,这些变异器已成为替代结构,具有固有的全球自留机制,以捕捉长距离依赖性。在本文中,我们提议TransDepeh,这是一个既得益于共生神经网络,又受益于变异器的建筑。为了避免由于采用变异器,网络丧失捕捉当地一级细节的能力,我们提议采用基于门的注意机制来开发新的脱coder。值得注意的是,这是将变异器应用于涉及连续标签(即单眼深度预测和表面正常估计)的像素预测问题的第一份论文。广泛的实验表明,拟议的TransDepteph在三个具有挑战性的数据集上都实现了状态的性能。我们的代码可以在https://github.com/ygjwd12345/TranstyDepteph上查阅。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
专知会员服务
15+阅读 · 2021年9月15日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年10月3日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
3+阅读 · 2020年11月28日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员