Self-supervised monocular depth estimation has been widely studied recently. Most of the work has focused on improving performance on benchmark datasets, such as KITTI, but has offered a few experiments on generalization performance. In this paper, we investigate the backbone networks (e.g. CNNs, Transformers, and CNN-Transformer hybrid models) toward the generalization of monocular depth estimation. We first evaluate state-of-the-art models on diverse public datasets, which have never been seen during the network training. Next, we investigate the effects of texture-biased and shape-biased representations using the various texture-shifted datasets that we generated. We observe that Transformers exhibit a strong shape bias and CNNs do a strong texture-bias. We also find that shape-biased models show better generalization performance for monocular depth estimation compared to texture-biased models. Based on these observations, we newly design a CNN-Transformer hybrid network with a multi-level adaptive feature fusion module, called MonoFormer. The design intuition behind MonoFormer is to increase shape bias by employing Transformers while compensating for the weak locality bias of Transformers by adaptively fusing multi-level representations. Extensive experiments show that the proposed method achieves state-of-the-art performance with various public datasets. Our method also shows the best generalization ability among the competitive methods.


翻译:自监督单目深度估计近期受到广泛研究。大部分工作关注提高在基准数据集(如KITTI)上的性能,但在泛化性能上给出的实验较少。本文研究了主干网络(例如CNN、Transformer和CNN-Transformer混合模型)对单目深度估计的泛化能力。首先在多样的公共数据集上评估了最先进的模型,这些数据集在网络训练期间从未被观察过。接着,使用我们生成的多个不同纹理偏移数据集研究了纹理偏向和形状偏向两种表征的影响。我们观察到Transformers有很强的形状偏向而CNNs则有很强的纹理偏向。我们还发现,比起纹理偏向模型,形状偏向模型对单目深度估计展示出更好的泛化性能。基于这些观测结果,我们新设计了一个CNN-Transformer混合网络,其中包括一个多级自适应特征融合模块,称为MonoFormer。MonoFormer的设计思想是通过采用Transformers来增加形状偏向,同时通过自适应地融合多级表示来弥补Transformers的弱点。大量实验证明,所提出的方法在各种公共数据集上均取得了最先进的性能。我们的方法还显示出最佳的泛化能力,优于竞争方法。

0
下载
关闭预览

相关内容

【AAAI2023】FoPro:少样本引导的鲁棒维布监督原型学习
专知会员服务
13+阅读 · 2022年12月3日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
33+阅读 · 2022年8月1日
专知会员服务
25+阅读 · 2021年1月21日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
0+阅读 · 2022年6月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月7日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关论文
Arxiv
0+阅读 · 2023年5月7日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
11+阅读 · 2020年12月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员