LiDAR based 3D object detection is a crucial module in autonomous driving particularly for long range sensing. Most of the research is focused on achieving higher accuracy and these models are not optimized for deployment on embedded systems from the perspective of latency and power efficiency. For high speed driving scenarios, latency is a crucial parameter as it provides more time to react to dangerous situations. Typically a voxel or point-cloud based 3D convolution approach is utilized for this module. Firstly, they are inefficient on embedded platforms as they are not suitable for efficient parallelization. Secondly, they have a variable runtime due to level of sparsity of the scene which is against the determinism needed in a safety system. In this work, we aim to develop a very low latency algorithm with fixed runtime. We propose a novel semantic segmentation architecture as a single unified model for object center detection using key points, box predictions and orientation prediction using binned classification in a simpler Bird's Eye View (BEV) 2D representation. The proposed architecture can be trivially extended to include semantic segmentation classes like road without any additional computation. The proposed model has a latency of 4 ms on the embedded Nvidia Xavier platform. The model is 5X faster than other top accuracy models with a minimal accuracy degradation of 2% in Average Precision at IoU=0.5 on KITTI dataset.
翻译:以 LiDAR 为基础的 3D 对象探测是自动驱动中的关键模块, 特别是远程感测。 大部分研究侧重于实现更高的精确度, 这些模型没有优化, 以便从延时和电效角度在嵌入系统上部署。 对于高速驱动假设, 延时是一个关键参数, 因为它提供了更多时间来应对危险情况。 这个模块通常使用基于 3D 3D 的 voxel 或点球立体进化方法。 首先, 嵌入平台上它们效率不高, 因为它们不适合高效的平行化。 其次, 它们有一个可变运行时间, 原因是场景的宽度水平与安全系统所需的确定性相比。 在这项工作中, 我们的目标是开发一个非常低的延时算算算法, 因为它提供了对危险情况作出反应的更多时间。 我们提出一个新的静态分解结构, 作为单一的统一模型, 使用更简单的 Bird' 眼睛视图 (BEVEV) 2D 代表系统。 拟议的结构可以微不足道地扩展, 包括像道路那样的静态分解类, 而不作任何额外的精确计算。 在高级的模型上, 5X 最高级的递化模型有最高级的模型。 5X 最快的模型 。 在最高级的 的 的 的 的 的模型是最高级的 5X 10 的 。 在最高级的 的 的 的 的 的 的 的 的 的模型 的 的 。