3D object detection is an important yet demanding task that heavily relies on difficult to obtain 3D annotations. To reduce the required amount of supervision, we propose 3DIoUMatch, a novel semi-supervised method for 3D object detection applicable to both indoor and outdoor scenes. We leverage a teacher-student mutual learning framework to propagate information from the labeled to the unlabeled train set in the form of pseudo-labels. However, due to the high task complexity, we observe that the pseudo-labels suffer from significant noise and are thus not directly usable. To that end, we introduce a confidence-based filtering mechanism, inspired by FixMatch. We set confidence thresholds based upon the predicted objectness and class probability to filter low-quality pseudo-labels. While effective, we observe that these two measures do not sufficiently capture localization quality. We therefore propose to use the estimated 3D IoU as a localization metric and set category-aware self-adjusted thresholds to filter poorly localized proposals. We adopt VoteNet as our backbone detector on indoor datasets while we use PV-RCNN on the autonomous driving dataset, KITTI. Our method consistently improves state-of-the-art methods on both ScanNet and SUN-RGBD benchmarks by significant margins under all label ratios (including fully labeled setting). For example, when training using only 10\% labeled data on ScanNet, 3DIoUMatch achieves 7.7% absolute improvement on mAP@0.25 and 8.5% absolute improvement on mAP@0.5 upon the prior art. On KITTI, we are the first to demonstrate semi-supervised 3D object detection and our method surpasses a fully supervised baseline from 1.8% to 7.6% under different label ratios and categories.


翻译:3D 对象探测是一项重要但又艰巨的任务, 严重依赖难以获得 3D 注释。 为了减少所需的监管量, 我们提议 3DIouUmatch 3D 目标检测的新型半监督性方法, 适用于室内和室外场景。 我们利用教师- 学生相互学习框架, 将标签上的信息传播到假标签形式的无标签列列列中。 然而, 由于任务的复杂性, 我们观察到伪标签受到重大噪音的影响, 因此无法直接使用。 为此, 我们引入了一个基于信任的绝对过滤机制, 由 FixMatch 启发。 我们根据预测对象性和阶级概率概率来筛选低质量的假标签。 我们发现, 这两种措施并不能充分捕捉本地化质量。 我们因此建议使用估计的 3D IoU 作为本地化指标, 并设定有类别自调整的阈值阈值阈值的阈值, 仅用于在内部数据集上使用 PV- RCN 绝对的过滤器 。 我们使用自动驱动器检测器, 3LOIT, 和SAR- bal- dalberal- laveal lader a ex a ex a coal decleg 10 lader a 10 lader a ex a ex ex 10 lader a ex a laveald 10 lab laveald a ex a ex a lader a lader a 10 ex a ex a lader lader a lader a lader a lader laderd laderd laderd a 10 labergmentald labs, 我们 10 a 10 a lader a lader laderd laberd labs a labs a 10 a lab 10 a laberdaldaldaldaldaldaldaldaldaldald 10 a 10 a 10 a 10 a 10 a 10 a 10 a 10 a lad 10 a lad lad lad lad labd 10 a 10 a 10 a 10 a 10 a lad a

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
专知会员服务
42+阅读 · 2021年8月20日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
123+阅读 · 2020年9月8日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Voxel Transformer for 3D Object Detection
Arxiv
1+阅读 · 2021年9月6日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员