Estimating the 3D position and orientation of objects in the environment with a single RGB camera is a critical and challenging task for low-cost urban autonomous driving and mobile robots. Most of the existing algorithms are based on the geometric constraints in 2D-3D correspondence, which stems from generic 6D object pose estimation. We first identify how the ground plane provides additional clues in depth reasoning in 3D detection in driving scenes. Based on this observation, we then improve the processing of 3D anchors and introduce a novel neural network module to fully utilize such application-specific priors in the framework of deep learning. Finally, we introduce an efficient neural network embedded with the proposed module for 3D object detection. We further verify the power of the proposed module with a neural network designed for monocular depth prediction. The two proposed networks achieve state-of-the-art performances on the KITTI 3D object detection and depth prediction benchmarks, respectively. The code will be published in https://www.github.com/Owen-Liuyuxuan/visualDet3D


翻译:以一个 RGB 相机估计环境中的物体的三维位置和方向是低成本城市自主驾驶和移动机器人的一项关键而艰巨的任务。现有的算法大多基于2D-3D通信中的几何限制,这些限制源于通用的 6D 对象构成估计。我们首先确定地面飞机如何在驾驶场对三维探测提供更深的推理线索。根据这一观察,我们随后改进了三维锚的处理,并引入了一个新的神经网络模块,以便在深层次学习的框架内充分利用这种具体应用的前科。最后,我们引入了与拟议的三维物体探测模块嵌入的高效神经网络。我们进一步核查拟议的模块的力量,并使用设计用于单眼深度预测的神经网络。两个拟议网络分别实现了KITTI 3D 对象探测和深度预测基准的状态性能。代码将在https://www.github.com/Owen-Luyuxuan/visalDD上公布。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
【泡泡一分钟】无地图驾驶的深层语义车道分割
泡泡机器人SLAM
3+阅读 · 2019年3月11日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】用于平面环境的线性RGBD-SLAM
泡泡机器人SLAM
6+阅读 · 2018年12月18日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
M3DSSD: Monocular 3D Single Stage Object Detector
Arxiv
0+阅读 · 2021年3月24日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关VIP内容
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
【泡泡一分钟】无地图驾驶的深层语义车道分割
泡泡机器人SLAM
3+阅读 · 2019年3月11日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】用于平面环境的线性RGBD-SLAM
泡泡机器人SLAM
6+阅读 · 2018年12月18日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员