Real-time detection of objects in the 3D scene is one of the tasks an autonomous agent needs to perform for understanding its surroundings. While recent Deep Learning-based solutions achieve satisfactory performance, their high computational cost renders their application in real-life settings in which computations need to be performed on embedded platforms intractable. In this paper, we analyze the efficiency of two popular voxel-based 3D object detection methods providing a good compromise between high performance and speed based on two aspects, their ability to detect objects located at large distances from the agent and their ability to operate in real time on embedded platforms equipped with high-performance GPUs. Our experiments show that these methods mostly fail to detect distant small objects due to the sparsity of the input point clouds at large distances. Moreover, models trained on near objects achieve similar or better performance compared to those trained on all objects in the scene. This means that the models learn object appearance representations mostly from near objects. Our findings suggest that a considerable part of the computations of existing methods is focused on locations of the scene that do not contribute with successful detection. This means that the methods can achieve a speed-up of $40$-$60\%$ by restricting operation to near objects while not sacrificing much in performance.


翻译:在三维场景中实时探测物体是自主代理机构为了解周围环境而需要完成的任务之一。虽然最近的深学习解决方案取得了令人满意的效果,但其高昂的计算成本使得这些解决方案在实际生活中的应用令人满意,在嵌入式平台难以进行计算。在本文中,我们分析了两种流行的基于三维立体物体探测方法的效率,这些方法提供了基于两个方面的高性能和速度之间的良好折中性能和速度,它们探测远离该代理机构的物体的能力,以及它们实时在装有高性能GPU的嵌入式平台上运行的能力。我们的实验表明,由于输入点云层的广度,这些方法大多无法探测远处的小物体。此外,在近物体上接受培训的模型的性能与在现场所有物体上所训练的模型的性能相似或更好。这意味着模型主要从近处了解物体的外观表现。我们的研究结果表明,现有方法的计算相当一部分集中在无法成功探测的场景地点。这意味着,这些方法可以实现40美元至60美元的速度,而不能通过限制操作来使性能达到40美元。

0
下载
关闭预览

相关内容

3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
12+阅读 · 2021年6月21日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员