We present RangeRCNN, a novel and effective 3D object detection framework based on the range image representation. Most existing methods are voxel-based or point-based. Though several optimizations have been introduced to ease the sparsity issue and speed up the running time, the two representations are still computationally inefficient. Compared to them, the range image representation is dense and compact which can exploit powerful 2D convolution. Even so, the range image is not preferred in 3D object detection due to scale variation and occlusion. In this paper, we utilize the dilated residual block (DRB) to better adapt different object scales and obtain a more flexible receptive field. Considering scale variation and occlusion, we propose the RV-PV-BEV (range view-point view-bird's eye view) module to transfer features from RV to BEV. The anchor is defined in BEV which avoids scale variation and occlusion. Neither RV nor BEV can provide enough information for height estimation; therefore, we propose a two-stage RCNN for better 3D detection performance. The aforementioned point view not only serves as a bridge from RV to BEV but also provides pointwise features for RCNN. Experiments show that RangeRCNN achieves state-of-the-art performance on the KITTI dataset and the Waymo Open dataset, and provides more possibilities for real-time 3D object detection. We further introduce and discuss the data augmentation strategy for the range image based method, which will be very valuable for future research on range image.


翻译:我们以范围图像显示为基础,提出一个全新的、有效的3D对象探测框架。 多数现有方法都是基于 voxel 或点基的。 尽管已经采用了若干优化来缓解宽度问题和加快运行时间, 但这两种表达仍然在计算上效率低下。 相比于它们, 范围图像代表密度和紧凑, 能够利用强大的 2D 变化。 即便如此, 3D 对象探测中并不偏好范围图像。 由于规模变异和隐蔽, 3D 对象探测中无法提供足够高度估计信息。 因此, 我们建议使用扩大的残余块( DRNN) 来更好地调整不同的对象尺度, 并获得更灵活的接受场域。 考虑到规模变异和隐蔽, 我们提议采用RV-PV- BEV 模块( 视野视图- 视图- 视觉) 模块将功能从 RV 到 BEV 变异变动 。 我们提议用两个阶段的 RNNNNN 目标检测功能定位系统, 不仅能提供RV 数据定位定位系统 的定位, 数据定位为 BREV 定位 定位 定位 定位, 定位 定位 定位 定位 定位 定位 定位 定位 工具, 将 将 将 提供 定位 定位 定位 定位 定位 定位 定位 数据 定位 定位 定位 定位 定位为 BV- sal- sal- 的 定位 定位 的 定位 定位 定位 定位 定位 定位 定位 数据 数据, 定位 定位, 定位 定位 数据 数据, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位, 定位 定位,, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 将 定位 定位 定位 定位 定位 定位 定位 定位, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 将 定位 定位 定位 定位 定位 定位 定位 定位 定位

0
下载
关闭预览

相关内容

CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
109+阅读 · 2020年3月12日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Cascade R-CNN 论文笔记
统计学习与视觉计算组
8+阅读 · 2018年6月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
Top
微信扫码咨询专知VIP会员