Recognizing and localizing objects in the 3D space is a crucial ability for an AI agent to perceive its surrounding environment. While significant progress has been achieved with expensive LiDAR point clouds, it poses a great challenge for 3D object detection given only a monocular image. While there exist different alternatives for tackling this problem, it is found that they are either equipped with heavy networks to fuse RGB and depth information or empirically ineffective to process millions of pseudo-LiDAR points. With in-depth examination, we realize that these limitations are rooted in inaccurate object localization. In this paper, we propose a novel and lightweight approach, dubbed Progressive Coordinate Transforms (PCT) to facilitate learning coordinate representations. Specifically, a localization boosting mechanism with confidence-aware loss is introduced to progressively refine the localization prediction. In addition, semantic image repre- sentation is also exploited to compensate for the usage of patch proposals. Despite being lightweight and simple, our strategy leads to superior improvements on the KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same time, our proposed PCT shows great generalization to most coordinate- based 3D detection frameworks. The code is available at: https://github.com/ amazon-research/progressive-coordinate-transforms.


翻译:在 3D 空间中确认和定位物体是AI 代理机构感知周围环境的关键能力。 虽然使用昂贵的利达雷达点云已经取得了显著进展,但它给三维天体探测带来了巨大的挑战,因为只有一幅单幅图像。虽然有不同的办法来解决这一问题,但发现它们要么配备了连接RGB的重网络和深度信息,要么在处理数百万个伪LiDAR点方面具有经验上的无效作用。经过深入的检查,我们认识到这些限制的根源在于不准确的物体定位。在本文中,我们提议了一种新颖和轻量级的方法,称为进步协调变换(PCT),以促进学习协调演示。具体地说,为逐步完善本地化预测引入了具有信心损失的本地化增强机制。此外,语义图像重新发送还被用来补偿修补建议的使用。尽管我们的战略是轻而简单,但我们的战略导致KITTI和Waymo Open DSet 单立 3D 检测基准得到更好的改进。同时,我们提议的PCT 展示了以最大范围化为协调基础的3DRiscostrain/Misgregal 3D 。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
专知会员服务
32+阅读 · 2021年6月12日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
20+阅读 · 2020年6月8日
Deep Learning for 3D Point Clouds: A Survey
Arxiv
3+阅读 · 2019年12月27日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年6月12日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Arxiv
12+阅读 · 2021年6月21日
Arxiv
20+阅读 · 2020年6月8日
Deep Learning for 3D Point Clouds: A Survey
Arxiv
3+阅读 · 2019年12月27日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员