谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

会员服务 ·

谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

2020 年 3 月 12 日 量子位

十三发自凹非寺
量子位报道 | 公众号 QbitAI

在2D图像中做3D目标检测很难？

现在，拿着一部手机就能做到，还是实时的那种。

这就是谷歌AI今天发布的MediaPipe Objectron，一个可以实时3D目标检测的pipeline。

分开来看：

MediaPipe是一个开源的跨平台框架，用于构建pipeline来处理不同模式的感知数据。

Objectron在移动设备上实时计算面向对象的3D边界框。

日常生活中的物体，它都可以检测，来看下效果。

它可以在移动端设备上，实时地确定物体的位置、方向和大小。

这个pipeline检测2D图像中的物体，然后通过机器学习模型，来估计它的姿态和大小。

那么，它具体是怎么做到的呢？

获取真实世界中的3D数据

我们知道，3D数据集相对于2D来说，非常有限。

为了解决这个问题，谷歌AI的研究人员使用移动增强现实(AR)会话数据(session data)，开发了新的数据pipeline。

目前来说，大部分智能手机现在都具备了增强现实的功能，在这个过程中捕捉额外的信息，包括相机姿态、稀疏的3D点云、估计的光照和平面。

为了标记groud truth数据，研究人员构建了一个新的注释工具，并将它和AR会话数据拿来一起使用，能让注释器快速地标记对象的3D边界框。

这个工具使用分屏视图来显示2D视频帧，例如下图所示。

左边是覆盖的3D边界框，右边显示的是3D点云、摄像机位置和检测平面的视图。

注释器在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。

对于静态对象，只需要在单帧中注释一个对象，并使用来自AR会话数据的ground truth摄像机位姿信息，将它的位置传播到所有帧。

这就让该过程变得非常高效。

AR合成数据生成

为了提高预测的准确性，现在比较流行的一种方法，就是通过合成的3D数据，来“填充”真实世界的数据。

但这样往往就会产生很不真实的数据，甚至还需要大量的计算工作。

谷歌AI就提出了一种新的方法——AR合成数据生成 (AR Synthetic Data Generation)。

这就允许研究人员可以利用相机的姿势、检测到的平面、估计的照明，来生成物理上可能的位置以及具有与场景匹配的照明位置。

这种方法产生了高质量的合成数据，与真实数据一起使用，能够将准确率提高约10%。

用于3D目标检测的机器学习pipeline

为了达到这个目的，研究人员建立了一个单阶段的模型，从一个RGB图像预测一个物体的姿态和物理大小。

模型主干部分有一个基于MobileNetv2的编码器-解码器架构。

还采用一种多任务学习方法，通过检测和回归来共同预测物体的形状。

对于形状任务，根据可用的ground truth注释(如分割)来预测对象的形状信号；对于检测任务，使用带注释的边界框，并将高斯分布拟合到框中，以框形质心为中心，并与框的大小成比例的标准差。

检测的目标是预测这个分布，它的峰值代表了目标的中心位置。

回归任务估计边界框8个顶点的2D投影。为了获得边界框的最终3D坐标，还利用了一个成熟的姿态估计算法(EPnP)，可以在不知道物体尺寸的前提下恢复物体的3D边界框。

有了3D边界框，就可以很容易地计算出物体的姿态和大小。

这个模型也是非常的轻量级，可以在移动设备上实时运行。

在MediaPipe中进行检测和跟踪

在移动端设备使用这个模型的时候，由于每一帧中3D边界框的模糊性，模型可能会发生“抖动”。

为了缓解这种情况，研究人员采用了最近在“2D界”发布的检测+跟踪框架。

这个框架减少了在每一帧上运行网络的需要，允许使用更大、更精确的模型，还能保持在pipeline上的实时性。

为了进一步提高移动pipeline的效率，每隔几帧只让运行一次模型推断。

最后，这么好的项目，当然已经开源了！

戳下方传送门链接，快去试试吧~

传送门

GitHub项目地址：
https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

谷歌AI博客：
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

<NVIDIA图像处理公开课·第二期> 开始报名啦，本周四晚8点，英伟达专家将分享如何利用TensorRT 7.0部署高速目标检测引擎。

戳二维码，备注“英伟达”即可报名、加交流群、获取第一期直播回放，主讲老师也会进群与大家交流互动哦~

直播报名 | 图像与视频处理系列课程

在家学编程 | 柯基编程双师互动课

如何提升少儿的逻辑思维、计算思维能力？

编程学习可能是最好选择！炫酷又有趣，有效培养思维习惯。

现在报名，只需29元！快来扫下面的二维码，查看详情：

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

3D目标检测

关注 1

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【CVPR2020-Uber】物理上可实现的对抗性的例子，用于激光雷达的目标检测，Physically Realizable Adversarial Examples for LiDAR Object Detection

专知会员服务

22+阅读 · 2020年4月16日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

深度神经网络实时物联网图像处理，241页pdf

专知会员服务

78+阅读 · 2020年3月15日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【综述】arXiv最新论文：自动驾驶中深度学习综述，附38页PDF

专知会员服务

107+阅读 · 2019年10月17日

【加州大学伯克利分校】自动机器学习流程设计技术报告，105页pdf

专知会员服务

44+阅读 · 2019年8月16日

【泡泡图灵智库】基于基准点的开源视觉-惯导运动捕捉系统

泡泡机器人SLAM

7+阅读 · 2019年9月19日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM（ICRA）

泡泡机器人SLAM

10+阅读 · 2019年7月12日

刷新COCO目标检测纪录！谷歌只靠AI扩增数据，就把一个模型变成SOTA，已开源

量子位

4+阅读 · 2019年6月28日

已删除

将门创投

8+阅读 · 2019年6月13日

何恺明团队最新研究：3D目标检测新框架VoteNet，直接处理点云数据，刷新最高精度

人工智能前沿讲习班

5+阅读 · 2019年5月2日

何恺明团队最新研究：3D目标检测新框架VoteNet，两大数据集刷新最高精度

全球人工智能

8+阅读 · 2019年4月25日

瓜分不了土地，但6D.ai可以瓜分画3D地图的工作给你

AR酱

3+阅读 · 2018年2月22日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

3D Face Modeling from Diverse Raw Scan Data

Arxiv

5+阅读 · 2019年2月13日

MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM

Arxiv

8+阅读 · 2018年12月20日

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Arxiv

4+阅读 · 2018年12月4日

Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision

Arxiv

3+阅读 · 2018年11月15日

Complex-YOLO: Real-time 3D Object Detection on Point Clouds

Arxiv

3+阅读 · 2018年3月16日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

VIP会员