Multi-view camera-based 3D detection is a challenging problem in computer vision. Recent works leverage a pretrained LiDAR detection model to transfer knowledge to a camera-based student network. However, we argue that there is a major domain gap between the LiDAR BEV features and the camera-based BEV features, as they have different characteristics and are derived from different sources. In this paper, we propose Geometry Enhanced Masked Image Modeling (GeoMIM) to transfer the knowledge of the LiDAR model in a pretrain-finetune paradigm for improving the multi-view camera-based 3D detection. GeoMIM is a multi-camera vision transformer with Cross-View Attention (CVA) blocks that uses LiDAR BEV features encoded by the pretrained BEV model as learning targets. During pretraining, GeoMIM's decoder has a semantic branch completing dense perspective-view features and the other geometry branch reconstructing dense perspective-view depth maps. The depth branch is designed to be camera-aware by inputting the camera's parameters for better transfer capability. Extensive results demonstrate that GeoMIM outperforms existing methods on nuScenes benchmark, achieving state-of-the-art performance for camera-based 3D object detection and 3D segmentation.


翻译:基于多视角相机的三维检测是计算机视觉中一个具有挑战性的问题。最近的工作利用预训练的 LiDAR 检测模型将知识传递给基于相机的学生网络。然而,我们认为 LiDAR BEV 特征和基于相机 BEV 特征之间存在重大的域差异,因为它们具有不同的特征并来自不同的来源。在本文中,我们提出了基于几何增强的遮蔽图像建模 (GeoMIM) 以预训练微调范式来传递 LiDAR 模型的知识,以提高多视角基于相机的三维检测能力。GeoMIM 是一个多相机视觉变换器,具有交叉视图注意力 (CVA) 块,使用预训练 BEV 模型编码的 LiDAR BEV 特征作为学习目标。在预训练期间,GeoMIM 的解码器拥有完成密集的透视视图特征的语义分支和重构密集透视视图深度地图的几何分支。深度分支经过设计是相机感知的,通过输入相机的参数,以获得更好的传递能力。广泛的实验结果表明,GeoMIM 在 nuScenes 基准测试中优于现有方法,在相机三维物体检测和三维语义分割方面均取得了最先进的性能。

0
下载
关闭预览

相关内容

【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
15+阅读 · 2023年3月17日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
20+阅读 · 2022年12月7日
自动化所11篇NeurIPS 2022新作速览!
专知会员服务
39+阅读 · 2022年10月5日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
15+阅读 · 2023年3月17日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
20+阅读 · 2022年12月7日
自动化所11篇NeurIPS 2022新作速览!
专知会员服务
39+阅读 · 2022年10月5日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员