Non-uniformed 3D sparse data, e.g., point clouds or voxels in different spatial positions, make contribution to the task of 3D object detection in different ways. Existing basic components in sparse convolutional networks (Sparse CNNs) process all sparse data, regardless of regular or submanifold sparse convolution. In this paper, we introduce two new modules to enhance the capability of Sparse CNNs, both are based on making feature sparsity learnable with position-wise importance prediction. They are focal sparse convolution (Focals Conv) and its multi-modal variant of focal sparse convolution with fusion, or Focals Conv-F for short. The new modules can readily substitute their plain counterparts in existing Sparse CNNs and be jointly trained in an end-to-end fashion. For the first time, we show that spatially learnable sparsity in sparse convolution is essential for sophisticated 3D object detection. Extensive experiments on the KITTI, nuScenes and Waymo benchmarks validate the effectiveness of our approach. Without bells and whistles, our results outperform all existing single-model entries on the nuScenes test benchmark at the paper submission time. Code and models are at https://github.com/dvlab-research/FocalsConv.
翻译:不统一的 3D 稀少数据, 例如, 点云 或 不同空间位置的 voxels, 以不同方式有助于 3D 对象探测任务 。 稀有的革命网络( CNN ) 的现有基本组成部分( Sparse CNN ) 处理所有稀有的数据 。 本文中, 我们引入两个新模块, 以提高 Sprassy CNN 的能力, 两者的基础都是 使 sparse 广度 能够 以 位置 - 重要性 预测 来 学习 3D 对象 。 它们是 焦点 稀少 的 共变异 ( Focal Con), 以及 其 焦点 分散 混杂的 组合 共变组合 的多模式, 或者 Conv- F 简称 。 新的模块可以随时替换现有的 Sparse CN 的普通对等,, 并以端到端方式共同培训 。 我们第一次显示, 稀有的 的 空间可学习的宽度 对 3D 对象探测至关重要 。 KITTI、 和 Waymo 基准 验证我们的方法的实验 方法的有效性 。 。 的实验 。 。 。 在不响和口哨, 我们的测试/ 标准 格式 格式 格式 的 格式 格式 格式 格式 的 的 的 格式 。