远端:与当地全球信息融合一起进行单层深度估计的多尺度视野变异器 (Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion) - 专知论文

会员服务 ·

0

估计/估计量 · 变换 · INFORMS · 均方根 · Vision ·

2022 年 7 月 12 日

Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion

翻译：远端:与当地全球信息融合一起进行单层深度估计的多尺度视野变异器

Ashutosh Agarwal,Chetan Arora

Attention-based models such as transformers have shown outstanding performance on dense prediction tasks, such as semantic segmentation, owing to their capability of capturing long-range dependency in an image. However, the benefit of transformers for monocular depth prediction has seldom been explored so far. This paper benchmarks various transformer-based models for the depth estimation task on an indoor NYUV2 dataset and an outdoor KITTI dataset. We propose a novel attention-based architecture, Depthformer for monocular depth estimation that uses multi-head self-attention to produce the multiscale feature maps, which are effectively combined by our proposed decoder network. We also propose a Transbins module that divides the depth range into bins whose center value is estimated adaptively per image. The final depth estimated is a linear combination of bin centers for each pixel. Transbins module takes advantage of the global receptive field using the transformer module in the encoding stage. Experimental results on NYUV2 and KITTI depth estimation benchmark demonstrate that our proposed method improves the state-of-the-art by 3.3%, and 3.3% respectively in terms of Root Mean Squared Error (RMSE). Code is available at https://github.com/ashutosh1807/Depthformer.git.

翻译：变压器等基于关注的模型显示,由于能够在图像中捕捉长距离依赖性,因此在高密度预测任务(如语义部分)方面表现突出,例如变压器等,由于具有在图像中捕捉长距离依赖性的能力,在语义分析模型方面表现突出。然而,迄今很少探讨变压器对单眼深度预测的好处。本文为室内NYUV2数据集和室外KITTI数据集的深度估算任务,规定了各种基于变压器的深度估算模型。我们提出了一个基于关注的新结构,即单眼深度估算的深度,利用多头自我测深仪来生成多尺度地貌图,这些图由我们提议的解调器网络有效结合。我们还提出了一个 Transbins模块,将深度范围分为每个图像中心值按不同估计的垃圾箱。最后的深度估计是每个像素的垃圾箱中心的线性组合。 Transbins 模块利用编码阶段的变压器模块的全球可容纳场。 NYUV2 和KIT180TI深度估算基准的实验结果显示,我们提出的方法改进了该图状图状图状图,由我们提议的解解解码网络网络网络网络网络网络网络网络网络网络网络网络系统将改进了3.3%和3.和3./SDIMSDMARMARMARM/SG/RV/RV/RV/RMIS/RV/RV/RV/RV/RMARGRV/RMAR。

0

相关内容

估计/估计量

估计/估计量

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【CVPR 2022】采用稀疏Transformer的单步法三维物体检测器，Embracing Single Stride 3D Object Detector with Sparse Transformer

【CVPR 2022】采用稀疏Transformer的单步法三维物体检测器，Embracing Single Stride 3D Object Detector with Sparse Transformer

专知会员服务

5+阅读 · 2022年3月12日

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

20篇「ICCV2021 Oral」最新论文抢先看！看当下计算机视觉在研究什么？

20篇「ICCV2021 Oral」最新论文抢先看！看当下计算机视觉在研究什么？

专知会员服务

62+阅读 · 2021年7月30日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

湖北麦冬均一多糖由PPARγ信号通路介导的降血脂作用及其机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Sigma 1受体对血管性痴呆小鼠血脑屏障的调节作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

外泌体（Exosome）在小肠上皮损伤修复的作用机制及甘草的干预研究

国家自然科学基金

0+阅读 · 2014年12月31日

SCI后铁超载及其致Ferroptosis在白质继发损伤中的作用研究

国家自然科学基金

0+阅读 · 2014年12月31日

长链非编码RNA CAR intergenic 10在细胞衰老中的作用和机制

国家自然科学基金

1+阅读 · 2013年12月31日

水稻驯化过程中基因家族进化研究

国家自然科学基金

0+阅读 · 2013年12月31日

PIM/BCL-xl和NF-κB/cIAPs凋亡通路在经典骨髓增殖性肿瘤凋亡中作用机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

PARP抑制剂诱导急性髓系白血病干细胞凋亡的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

组蛋白去乙酰化酶抑制剂对骨关节炎中Notch-NFAT信号通路调控的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

PI-IBS中TMEM16A介导IL-4对Cajal细胞损伤的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection

MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection

Arxiv

0+阅读 · 2022年9月2日

LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

Arxiv

0+阅读 · 2022年9月2日

Real-time 3D Single Object Tracking with Transformer

Arxiv

0+阅读 · 2022年9月2日

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection

Arxiv

0+阅读 · 2022年9月1日

TransMatting: Enhancing Transparent Objects Matting with Transformers

Arxiv

0+阅读 · 2022年9月1日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Arxiv

15+阅读 · 2019年3月18日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

MSDNN: Multi-Scale Deep Neural Network for Salient Object Detection

Arxiv

21+阅读 · 2018年1月12日

VIP会员

文章信息

相关主题

估计/估计量

相关VIP内容

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【CVPR 2022】采用稀疏Transformer的单步法三维物体检测器，Embracing Single Stride 3D Object Detector with Sparse Transformer

【CVPR 2022】采用稀疏Transformer的单步法三维物体检测器，Embracing Single Stride 3D Object Detector with Sparse Transformer

专知会员服务

5+阅读 · 2022年3月12日

计算机科学课程与视频课件合集，Computer Science courses with video lectures

计算机科学课程与视频课件合集，Computer Science courses with video lectures

专知会员服务

37+阅读 · 2022年1月24日

20篇「ICCV2021 Oral」最新论文抢先看！看当下计算机视觉在研究什么？

20篇「ICCV2021 Oral」最新论文抢先看！看当下计算机视觉在研究什么？

专知会员服务

62+阅读 · 2021年7月30日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能治理的未来

模态感知的特征匹配：单一模态与跨模态技术的全面综述

无监督行人重识别研究综述

【牛津博士论文】面向神经影像应用的可扩展且可解释的空间模型

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection

MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection

Arxiv

0+阅读 · 2022年9月2日

LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

Arxiv

0+阅读 · 2022年9月2日

Real-time 3D Single Object Tracking with Transformer

Arxiv

0+阅读 · 2022年9月2日

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection

Arxiv

0+阅读 · 2022年9月1日

TransMatting: Enhancing Transparent Objects Matting with Transformers

Arxiv

0+阅读 · 2022年9月1日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Arxiv

15+阅读 · 2019年3月18日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

MSDNN: Multi-Scale Deep Neural Network for Salient Object Detection

Arxiv

21+阅读 · 2018年1月12日

相关基金

湖北麦冬均一多糖由PPARγ信号通路介导的降血脂作用及其机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

Sigma 1受体对血管性痴呆小鼠血脑屏障的调节作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

外泌体（Exosome）在小肠上皮损伤修复的作用机制及甘草的干预研究

国家自然科学基金

0+阅读 · 2014年12月31日

SCI后铁超载及其致Ferroptosis在白质继发损伤中的作用研究

国家自然科学基金

0+阅读 · 2014年12月31日

长链非编码RNA CAR intergenic 10在细胞衰老中的作用和机制

国家自然科学基金

1+阅读 · 2013年12月31日

水稻驯化过程中基因家族进化研究

国家自然科学基金

0+阅读 · 2013年12月31日

PIM/BCL-xl和NF-κB/cIAPs凋亡通路在经典骨髓增殖性肿瘤凋亡中作用机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

PARP抑制剂诱导急性髓系白血病干细胞凋亡的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

组蛋白去乙酰化酶抑制剂对骨关节炎中Notch-NFAT信号通路调控的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

PI-IBS中TMEM16A介导IL-4对Cajal细胞损伤的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员