阿里达摩院新研究：实习生一作突破自动驾驶技术难题，首次实现3D物体检测精度与速度兼得

2020 年 3 月 21 日 量子位

乾明发自凹非寺
量子位报道 | 公众号 QbitAI

最新消息，阿里达摩院又有新的研究进展，这次在自动驾驶3D物体检测领域。

达摩院的研究人员提出一个通用、高性能的检测器，在自动驾驶领域权威数据集KITTI BEV(鸟瞰)上，检测速度达到25FPS ，一举占据榜首，与排名第二的方案相比，减少了一半多，同时精度也远超其他的单阶段检测器。可以说首次实现3D物体检测精度与速度兼得。

达摩院研究团队表示：“检测器是自动驾驶系统的核心组件之一，但该领域一直缺少创新和突破，此次我们实现3D检测精度和速度的提升，将有助于提高自动驾驶系统的安全性。”

从实验结果来看，他们显然取得了良好进展，而且研究的主要完成人员（一作），还是达摩院的实习生。

同时，该研究也得到了同行们的认可，被计算机视觉领域顶级会议CVPR 2020收录。他们是如何做到的呢？我们借助阿里达摩院提供的解读，一一来看。

如何实现精度和速度兼得？

众所周知，与普通2D图像识别应用不同，自动驾驶系统对精度和速度的要求更高，不仅需要快速识别周围环境的物体，还要对物体在三维空间中的位置做精准定位。

仅靠传感器和算法模型，通常无法平衡视觉识别的精度和速度。因此，检测器成为提升自动驾驶系统安全性的一个关键因素。

经过多年研究，当前业界主流的单阶段检测器在检测速度上很好，但在检测精度却差强人意。

这就是达摩院研究的出发点：寻找一种能二者兼得的方法。

他们提出的思路是：将两阶段检测器中对特征进行细粒度刻画的思想，移植到单阶段检测中。

在他们的模型中，用于部署的检测器，即推断网络，由一个骨干网络和检测头组成。

骨干网络用3D的稀疏网络实现，用于提取含有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示，并在上面运行2D全卷积网络来预测3D物体框。

他们在训练中利用一个辅助网络将单阶段检测器中的体素特征，转化为点级特征并施加一定的监督信号。

在实现上，他们将卷积特征中的非零信号映射到原始的点云空间中，然后在每个点上进行插值，来获取卷积特征的点级表示。使得卷积特征也具有结构感知能力，来提高检测精度。

而在做模型推断时，辅助网络并不参与计算（detached），保证单阶段检测器的检测效率。

另外，他们还提出一个工程上的改进：Part-sensitive Warping (PSWarp)，用于处理单阶段检测器中存在的 “框-置信度-不匹配” 问题。

核心思路是：利用采样器，用生成的采样网格在对应的局部敏感特征图上进行采样，生成对齐好的特征图。最终能反映置信度的特征图，是K个对齐好特征图的平均。

单阶段方法，能达到两阶段方法精度

阿里达摩院的研究人员，在KITTI数据集上评估了方法的有效性。下图（PR Curve）中，实线为两阶段方法，虚线为单阶段方法。

可以看出，达摩院提出的单阶段方法（黑色）能够达到两阶段方法才能达到的精度。

下图展示了他们在KITTI 鸟瞰(BEV) 和 3D 测试集上的结果。

可以看出，他们提出的方法，可以在不增加额外计算量的情况下，达到25FPS 的检测速度，而且还能保持精度。具体的检测效果如下：

两位共同一作，都是达摩院研究实习生

研究论文，标题为“Structure Aware Single-Stage 3D Object Detection from Point Cloud”，共有5名研究人员参与，分别来自阿里达摩院和香港理工大学。

第一作者是Chenhang He，是阿里达摩院的研究实习生，正在香港理工大学读博，预计2022年毕业。

他的导师是达摩院高级研究员、香港理工大学电子计算学系讲座教授、IEEE Fellow张磊，也是这一研究的通讯作者。

另一位第一作者Hui Zeng，也是是阿里达摩院的研究实习生，同样是张磊的博士生，预计在今年毕业。

其他作者，分别是达摩院高级研究员、IEEE Fellow华先胜、达摩院资深算法专家黄建强等。

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

<NVIDIA图像处理公开课·第三期> 开始报名啦，3.26晚8点，英伟达专家将分享如何利用迁移式学习工具包加速Jetbot智能小车推理引擎部署。

戳二维码，备注“英伟达”即可报名、加交流群、获取前两期直播回放，主讲老师也会进群与大家交流互动哦~

免费报名 | 图像与视频处理系列直播课

学习计划 | 关注AI发展新动态

内参新升级！拓展优质人脉，获取最新AI资讯&论文教程，欢迎加入AI内参社群一起学习~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

检测器

关注 0

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

【北航】基于领域知识的深度学习医学图像分析研究综述,26页pdf

专知会员服务

139+阅读 · 2020年5月1日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

专知会员服务

45+阅读 · 2020年4月10日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

Nature论文：用于自主血管通路的深度学习机器人导航，新泽西州立大学

专知会员服务

24+阅读 · 2020年2月17日

【综述】arXiv最新论文：自动驾驶中深度学习综述，附38页PDF

专知会员服务

107+阅读 · 2019年10月17日

加盟依图科技后，颜水成首篇顶会论文提出“高效多人体姿态检测SPM”

量子位

5+阅读 · 2019年9月16日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

何恺明团队最新研究：3D目标检测新框架VoteNet，直接处理点云数据，刷新最高精度

人工智能前沿讲习班

5+阅读 · 2019年5月2日

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

全球人工智能

8+阅读 · 2019年4月25日

已删除

将门创投

6+阅读 · 2019年4月10日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

【机器视觉】抢滩人工智能新风口的3D视觉和机器人三维视觉引导系统

产业智能官

5+阅读 · 2018年9月19日

学界 | 世界权威评测冠军：百度人脸检测算法PyramidBox

机器之心

5+阅读 · 2018年3月30日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Arxiv

5+阅读 · 2019年2月26日

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Arxiv

4+阅读 · 2018年12月4日

Scene Coordinate and Correspondence Learning for Image-Based Localization

Arxiv

5+阅读 · 2018年7月23日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

Joint Optic Disc and Cup Segmentation Based on Multi-label Deep Network and Polar Transformation

Arxiv

6+阅读 · 2018年1月11日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员