谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

会员服务 ·

谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

2020 年 3 月 12 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

十三发自凹非寺
本文转载自：量子位（QbitAI）

在2D图像中做3D目标检测很难？

现在，拿着一部手机就能做到，还是实时的那种。

这就是谷歌AI今天发布的MediaPipe Objectron，一个可以实时3D目标检测的pipeline。

分开来看：

MediaPipe是一个开源的跨平台框架，用于构建pipeline来处理不同模式的感知数据。

Objectron在移动设备上实时计算面向对象的3D边界框。

日常生活中的物体，它都可以检测，来看下效果。

它可以在移动端设备上，实时地确定物体的位置、方向和大小。

这个pipeline检测2D图像中的物体，然后通过机器学习模型，来估计它的姿态和大小。

那么，它具体是怎么做到的呢？

获取真实世界中的3D数据

我们知道，3D数据集相对于2D来说，非常有限。

为了解决这个问题，谷歌AI的研究人员使用移动增强现实(AR)会话数据(session data)，开发了新的数据pipeline。

目前来说，大部分智能手机现在都具备了增强现实的功能，在这个过程中捕捉额外的信息，包括相机姿态、稀疏的3D点云、估计的光照和平面。

为了标记groud truth数据，研究人员构建了一个新的注释工具，并将它和AR会话数据拿来一起使用，能让注释器快速地标记对象的3D边界框。

这个工具使用分屏视图来显示2D视频帧，例如下图所示。

左边是覆盖的3D边界框，右边显示的是3D点云、摄像机位置和检测平面的视图。

注释器在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。

对于静态对象，只需要在单帧中注释一个对象，并使用来自AR会话数据的ground truth摄像机位姿信息，将它的位置传播到所有帧。

这就让该过程变得非常高效。

AR合成数据生成

为了提高预测的准确性，现在比较流行的一种方法，就是通过合成的3D数据，来“填充”真实世界的数据。

但这样往往就会产生很不真实的数据，甚至还需要大量的计算工作。

谷歌AI就提出了一种新的方法——AR合成数据生成 (AR Synthetic Data Generation)。

这就允许研究人员可以利用相机的姿势、检测到的平面、估计的照明，来生成物理上可能的位置以及具有与场景匹配的照明位置。

这种方法产生了高质量的合成数据，与真实数据一起使用，能够将准确率提高约10%。

用于3D目标检测的机器学习pipeline

为了达到这个目的，研究人员建立了一个单阶段的模型，从一个RGB图像预测一个物体的姿态和物理大小。

模型主干部分有一个基于MobileNetv2的编码器-解码器架构。

还采用一种多任务学习方法，通过检测和回归来共同预测物体的形状。

对于形状任务，根据可用的ground truth注释(如分割)来预测对象的形状信号；对于检测任务，使用带注释的边界框，并将高斯分布拟合到框中，以框形质心为中心，并与框的大小成比例的标准差。

检测的目标是预测这个分布，它的峰值代表了目标的中心位置。

回归任务估计边界框8个顶点的2D投影。为了获得边界框的最终3D坐标，还利用了一个成熟的姿态估计算法(EPnP)，可以在不知道物体尺寸的前提下恢复物体的3D边界框。

有了3D边界框，就可以很容易地计算出物体的姿态和大小。

这个模型也是非常的轻量级，可以在移动设备上实时运行。

在MediaPipe中进行检测和跟踪

在移动端设备使用这个模型的时候，由于每一帧中3D边界框的模糊性，模型可能会发生“抖动”。

为了缓解这种情况，研究人员采用了最近在“2D界”发布的检测+跟踪框架。

这个框架减少了在每一帧上运行网络的需要，允许使用更大、更精确的模型，还能保持在pipeline上的实时性。

为了进一步提高移动pipeline的效率，每隔几帧只让运行一次模型推断。

最后，这么好的项目，当然已经开源了！

戳下方传送门链接，快去试试吧~

传送门

GitHub项目地址：
https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md

谷歌AI博客：
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

重磅！CVer-3D目标检测 交流群已成立

扫码添加CVer助手，可申请加入CVer-3D目标检测 微信交流群，目前已满300+人，旨在3D目标检测相关等内容。

一定要备注：研究方向+地点+学校/公司+昵称（如3D目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加群

▲长按关注我们

麻烦给我一个在看！

登录查看更多

相关内容

3D目标检测

关注 1

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

谷歌AI动画接龙：只用头尾两帧图像，片刻生成完整视频！

新智元

3+阅读 · 2019年5月31日

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

泡泡机器人SLAM

13+阅读 · 2019年5月8日

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

瓜分不了土地，但6D.ai可以瓜分画3D地图的工作给你

AR酱

3+阅读 · 2018年2月22日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

Real-time Scalable Dense Surfel Mapping

Arxiv

5+阅读 · 2019年9月10日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

DPOD: Dense 6D Pose Object Detector in RGB images

Arxiv

5+阅读 · 2019年2月28日

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Road surface 3d reconstruction based on dense subpixel disparity map estimation

Arxiv

3+阅读 · 2018年7月5日

Object detection at 200 Frames Per Second

Arxiv

5+阅读 · 2018年5月16日

3D Pose Estimation and 3D Model Retrieval for Objects in the Wild

Arxiv

7+阅读 · 2018年3月30日

3D-SSD: Learning Hierarchical Features from RGB-D Images for Amodal 3D Object Detection

Arxiv

8+阅读 · 2018年2月21日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

VIP会员