3D object detection is a core component of automated driving systems. State-of-the-art methods fuse RGB imagery and LiDAR point cloud data frame-by-frame for 3D bounding box regression. However, frame-by-frame 3D object detection suffers from noise, field-of-view obstruction, and sparsity. We propose a novel Temporal Fusion Module (TFM) to use information from previous time-steps to mitigate these problems. First, a state-of-the-art frustum network extracts point cloud features from raw RGB and LiDAR point cloud data frame-by-frame. Then, our TFM module fuses these features with a recurrent neural network. As a result, 3D object detection becomes robust against single frame failures and transient occlusions. Experiments on the KITTI object tracking dataset show the efficiency of the proposed TFM, where we obtain ~6%, ~4%, and ~6% improvements on Car, Pedestrian, and Cyclist classes, respectively, compared to frame-by-frame baselines. Furthermore, ablation studies reinforce that the subject of improvement is temporal fusion and show the effects of different placements of TFM in the object detection pipeline. Our code is open-source and available at https://github.com/emecercelik/Temp-Frustum-Net.git.


翻译:3D对象探测是自动驱动系统的核心组成部分。 最先进的方法将 RGB 图像和 LiDAR 点云数据框架逐个框架结合为 3D 边框框回归。 然而, 3D 对象框架逐个框架的探测有噪音、 视场障碍和宽度。 我们提议一个新型的时空融合模块( TFM ), 以利用先前时间步骤中的信息来缓解这些问题。 首先, 最先进的断裂式网络从原始 RGB 和 LiDAR 点云数据框架逐个框架中提取点云。 然后, 我们的 TFM 模块将这些特征与一个经常性的神经网络连接起来。 结果, 3D 对象的探测变得强大, 对抗单一框架故障和瞬时空的封闭性。 对 KITTI 对象跟踪数据集的实验显示了拟议的 TFM 的效率, 在那里我们得到了 ~ 6%, ~ 4% 和 ~ 6% 的改进 Car, Pedestrian 和 Cyclicle 类, 的改善对象类别, 与框架/ 基准基线基线相比。 此外, 我们的TFILIL 的测试和 的改进是现有版本/ 的源源 的改进对象探测/ 。

0
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
31+阅读 · 2021年6月12日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
109+阅读 · 2020年3月12日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
计算机视觉领域顶会CVPR 2018 接受论文列表
Arxiv
12+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年6月12日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
109+阅读 · 2020年3月12日
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
计算机视觉领域顶会CVPR 2018 接受论文列表
Top
微信扫码咨询专知VIP会员