Recognizing and localizing objects in the 3D space is a crucial ability for an AI agent to perceive its surrounding environment. While significant progress has been achieved with expensive LiDAR point clouds, it poses a great challenge for 3D object detection given only a monocular image. While there exist different alternatives for tackling this problem, it is found that they are either equipped with heavy networks to fuse RGB and depth information or empirically ineffective to process millions of pseudo-LiDAR points. With in-depth examination, we realize that these limitations are rooted in inaccurate object localization. In this paper, we propose a novel and lightweight approach, dubbed {\em Progressive Coordinate Transforms} (PCT) to facilitate learning coordinate representations. Specifically, a localization boosting mechanism with confidence-aware loss is introduced to progressively refine the localization prediction. In addition, semantic image representation is also exploited to compensate for the usage of patch proposals. Despite being lightweight and simple, our strategy leads to superior improvements on the KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same time, our proposed PCT shows great generalization to most coordinate-based 3D detection frameworks. The code is available at: https://github.com/amazon-research/progressive-coordinate-transforms .


翻译:在 3D 空间中确认和定位物体是AI 代理机构感知周围环境的关键能力。 虽然使用昂贵的 LiDAR 点云已经取得了显著进展,但仅用一个单体图像对三维天体的探测构成巨大挑战。 虽然存在解决这一问题的不同选择,但发现它们要么配备了连接RGB的重网络和深度信息,或者在处理数百万个伪LiDAR 点时在经验上是无效的。通过深入检查,我们认识到这些限制的根源在于不准确的物体定位。在本文中,我们提议采用新颖和轻量级的方法,称为“进步坐标变换”(PCT),以促进学习协调演示。具体地说,引入了具有信心损失的促进本地化机制,以逐步完善本地化预测。此外,语义图像代表也被用来补偿修补建议的使用。尽管我们的战略是轻而简单,但我们的战略导致KITTI 和Waymo Open Dset 单体3D 检测基准得到更好的改进。同时,我们提议的PCT 显示最普遍的通用/MSBSBAD 3D 。MRisgroadal 3D 。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
15+阅读 · 2021年4月3日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
5+阅读 · 2019年4月8日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
Top
微信扫码咨询专知VIP会员