We present RangeRCNN, a novel and effective 3D object detection framework based on the range image representation. Most existing methods are voxel-based or point-based. Though several optimizations have been introduced to ease the sparsity issue and speed up the running time, the two representations are still computationally inefficient. Compared to them, the range image representation is dense and compact which can exploit powerful 2D convolution. Even so, the range image is not preferred in 3D object detection due to scale variation and occlusion. In this paper, we utilize the dilated residual block (DRB) to better adapt different object scales and obtain a more flexible receptive field. Considering scale variation and occlusion, we propose the RV-PV-BEV (range view-point view-bird's eye view) module to transfer features from RV to BEV. The anchor is defined in BEV which avoids scale variation and occlusion. Neither RV nor BEV can provide enough information for height estimation; therefore, we propose a two-stage RCNN for better 3D detection performance. The aforementioned point view not only serves as a bridge from RV to BEV but also provides pointwise features for RCNN. Experiments show that RangeRCNN achieves state-of-the-art performance on the KITTI dataset and the Waymo Open dataset, and provides more possibilities for real-time 3D object detection. We further introduce and discuss the data augmentation strategy for the range image based method, which will be very valuable for future research on range image.
翻译:我们以范围图像显示为基础,提出一个全新的、有效的3D对象探测框架。 多数现有方法都是基于 voxel 或点基的。 尽管已经采用了若干优化来缓解宽度问题和加快运行时间, 但这两种表达仍然在计算上效率低下。 相比于它们, 范围图像代表密度和紧凑, 能够利用强大的 2D 变化。 即便如此, 3D 对象探测中并不偏好范围图像。 由于规模变异和隐蔽, 3D 对象探测中无法提供足够高度估计信息。 因此, 我们建议使用扩大的残余块( DRNN) 来更好地调整不同的对象尺度, 并获得更灵活的接受场域。 考虑到规模变异和隐蔽, 我们提议采用RV-PV- BEV 模块( 视野视图- 视图- 视觉) 模块将功能从 RV 到 BEV 变异变动 。 我们提议用两个阶段的 RNNNNN 目标检测功能定位系统, 不仅能提供RV 数据定位定位系统 的定位, 数据定位为 BREV 定位 定位 定位 定位, 定位 定位 定位 定位 定位 定位 定位 定位 工具, 将 将 将 提供 定位 定位 定位 定位 定位 定位 定位 数据 定位 定位 定位 定位 定位为 BV- sal- sal- 的 定位 定位 的 定位 定位 定位 定位 定位 定位 定位 数据 数据, 定位 定位, 定位 定位 数据 数据, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位, 定位 定位,, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 将 定位 定位 定位 定位 定位 定位 定位 定位, 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 定位 将 定位 定位 定位 定位 定位 定位 定位 定位 定位