In LiDAR-based 3D object detection for autonomous driving, the ratio of the object size to input scene size is significantly smaller compared to 2D detection cases. Overlooking this difference, many 3D detectors directly follow the common practice of 2D detectors, which downsample the feature maps even after quantizing the point clouds. In this paper, we start by rethinking how such multi-stride stereotype affects the LiDAR-based 3D object detectors. Our experiments point out that the downsampling operations bring few advantages, and lead to inevitable information loss. To remedy this issue, we propose Single-stride Sparse Transformer (SST) to maintain the original resolution from the beginning to the end of the network. Armed with transformers, our method addresses the problem of insufficient receptive field in single-stride architectures. It also cooperates well with the sparsity of point clouds and naturally avoids expensive computation. Eventually, our SST achieves state-of-the-art results on the large scale Waymo Open Dataset. It is worth mentioning that our method can achieve exciting performance (83.8 LEVEL 1 AP on validation split) on small object (pedestrian) detection due to the characteristic of single stride. Codes will be released at https://github.com/TuSimple/SST


翻译:在基于 LiDAR 的三维天体自动驱动探测中,对象大小与输入场景大小的比例比比 2D 探测案例要小得多。 忽略这一差异, 许多 3D 探测器直接遵循了 2D 探测器的常见做法, 即使在对点云进行量化之后, 该探测器也缩小了地貌地图的样本。 在本文中, 我们首先重新思考这种多维刻度的刻板印象如何影响基于 3D 的立体探测器。 我们的实验指出, 降底取样操作没有带来多少优势, 导致不可避免的信息丢失。 为了纠正这一问题, 我们提议单丝带 斯巴特变异变异器( SST) 从网络的开头到结尾保持原始分辨率。 配有变异器, 我们的方法可以解决单面结构中无法充分接受的场的问题。 它还与点云的偏僻和自然避免昂贵的计算结果。 最后, 我们的SST 在大型Waymo Opend Dataset 上, 我们的方法可以实现令人兴奋的性表现( 83.8 AS AP 1 AS AP 1) 在验证系统/ ablistalblement Staproad exal exal excial) 。

10
下载
关闭预览

相关内容

【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
Arxiv
6+阅读 · 2021年11月12日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关VIP内容
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员