In this paper, we introduce the task of multi-view RGB-based 3D object detection as an end-to-end optimization problem. To address this problem, we propose ImVoxelNet, a novel fully convolutional method of 3D object detection based on monocular or multi-view RGB images. The number of monocular images in each multi-view input can variate during training and inference; actually, this number might be unique for each multi-view input. ImVoxelNet successfully handles both indoor and outdoor scenes, which makes it general-purpose. Specifically, it achieves state-of-the-art results in car detection on KITTI (monocular) and nuScenes (multi-view) benchmarks among all methods that accept RGB images. Moreover, it surpasses existing RGB-based 3D object detection methods on the SUN RGB-D dataset. On ScanNet, ImVoxelNet sets a new benchmark for multi-view 3D object detection. The source code and the trained models are available at https://github.com/saic-vul/imvoxelnet.


翻译:在本文中, 我们引入了多视图 RGB 基基于 3D 对象检测的任务, 将其作为一个端到端优化的问题。 为了解决这个问题, 我们建议使用IMVoxelNet, 这是基于单视或多视图 RGB 图像的一种全演的3D对象检测新颖方法。 每个多视图输入中的单视图像数量可以在培训和推断过程中变异; 实际上, 这个数字对于每个多视图输入来说可能是独一无二的。 ImVoxelNet 成功地处理室内和室外的景色, 这使得它具有通用性。 具体地说, 它在接受 RGB 图像的所有方法中, 在 KITTI( 离子) 和 nuScenes( 多视图) 的汽车检测中取得了最新的最新结果。 此外, 它超过了 SUN RGB RGB- D 数据集中现有的3D 目标检测方法 。 在 Scampnet 上, ImVoxelNet 为多视图 3D 对象检测设定了一个新的基准。 源码和经过培训的模型可在 https:// github.com/ saynet- vul/ imvo 。

0
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
32+阅读 · 2021年9月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Arxiv
12+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Top
微信扫码咨询专知VIP会员