As a crucial task of autonomous driving, 3D object detection has made great progress in recent years. However, monocular 3D object detection remains a challenging problem due to the unsatisfactory performance in depth estimation. Most existing monocular methods typically directly regress the scene depth while ignoring important relationships between the depth and various geometric elements (e.g. bounding box sizes, 3D object dimensions, and object poses). In this paper, we propose to learn geometry-guided depth estimation with projective modeling to advance monocular 3D object detection. Specifically, a principled geometry formula with projective modeling of 2D and 3D depth predictions in the monocular 3D object detection network is devised. We further implement and embed the proposed formula to enable geometry-aware deep representation learning, allowing effective 2D and 3D interactions for boosting the depth estimation. Moreover, we provide a strong baseline through addressing substantial misalignment between 2D annotation and projected boxes to ensure robust learning with the proposed geometric formula. Experiments on the KITTI dataset show that our method remarkably improves the detection performance of the state-of-the-art monocular-based method without extra data by 2.80% on the moderate test setting. The model and code will be released at https://github.com/YinminZhang/MonoGeo.


翻译:作为自主驱动的关键任务,3D天体探测近年来取得了巨大进展。然而,单立体物体探测由于深度估计的性能不尽人意,单立体物体探测仍是一个具有挑战性的问题。大多数现有的单立体物体探测方法通常会直接反向场景深度,而忽略深度和各种几何元素(例如,捆绑箱大小、3D天体尺寸和天体构成)之间的重要关系。在本文件中,我们提议学习几何引导深度估计,用投影模型来推进单立体3D天体探测。具体而言,在单立体3D天体探测网络中,一个有2D和3D深度预测的投影模型的有原则的几何方公式已经设计出。我们进一步实施和嵌入了拟议公式,以便能够进行测深度的深度学习,同时忽略了深度和各种几何元素(例如,捆绑箱大小、3D天体尺寸和天体外尺寸)之间的相互作用。此外,我们通过处理2D注和预测箱之间的严重偏差,确保用拟议的几何公式进行稳健的学习。在KITTI数据集上的实验表明,我们的方法将明显改进了以正态/正态/正态/正态/透视/透视系统解法将用2.80号进行试验/自动解。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
专知会员服务
100+阅读 · 2020年7月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
Arxiv
0+阅读 · 2021年9月24日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
12+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
专知会员服务
100+阅读 · 2020年7月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员