在基于LiDAR的自动驾驶3D目标检测任务中,检测物体与场景大小的比例呈现出超过2D检测的现象。因此,许多3D检测器直接使用2D检测器的常规方法,即在量化点云之后对特征图进行下采样。本文作者重新思考了这种固定思路对3D点云目标检测的影响。实验结果表明,下采样方法不仅无法带来优势,还会不可避免地造成信息损失。为了解决这个问题,本文提出了一种Single-stride Sparse Transformer (SST)来保持网络特征的空间尺寸。利用Transformer模型,SST不仅解决了已有方法中感受野不足的问题,还能够配合点云的稀疏性以降低计算代价。SST在大规模的Waymo开放数据集上也取得了最先进的结果,且该方法对小物体(行人)检测具有单步幅(Single-stride)的特点,在验证集上可达到83.8 LEVEL_1AP。
https://www.zhuanzhi.ai/paper/0b270cdff67bbfece13ceaff52494ca3