会员服务 ·

0

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

2019 年 9 月 14 日 AI100

作者 | MediaPipe 团队

来源 | TensorFlow（ID：tensorflowers）

【导读】我爱计算机视觉（aicvml）CV君推荐道：“虽然它是出自Google Research，但不是一个实验品，而是已经应用于谷歌多款产品中，还在开发中，将来也许会成为一款重要的专注于媒体的机器学习应用框架，非常值得做计算机视觉相关工程开发的朋友参考。”

MediaPipe 是一款由 Google Research 开发并开源的多媒体机器学习模型应用框架。在谷歌，一系列重要产品，如 YouTube、Google Lens、ARCore、Google Home 以及 Nest，都已深度整合了 MediaPipe。

注：MediaPipe GitHub 链接

https://github.com/google/mediapipe

作为一款跨平台框架，MediaPipe 不仅可以被部署在服务器端，更可以在多个移动端（安卓和苹果 iOS）和嵌入式平台（Google Coral 和树莓派）中作为设备端机器学习推理（On-device Machine Learning Inference）框架。

为什么需要 MediaPipe？

一款多媒体机器学习应用的成败除了依赖于模型本身的好坏，还取决于设备资源的有效调配、多个输入流之间的高效同步、跨平台部署上的便捷程度、以及应用搭建的快速与否。

基于这些需求，谷歌开发并开源了 MediaPipe 项目。除了上述的特性，MediaPipe 还支持 TensorFlow 和 TF Lite 的推理引擎（Inference Engine），任何 TensorFlow 和 TF Lite 的模型都可以在 MediaPipe 上使用。同时，在移动端和嵌入式平台，MediaPipe 也支持设备本身的 GPU 加速。

MediaPipe 演示案例

在今年六月举行的 CVPR 会议上，Google Research 开源了 MediaPipe 的预览版。为方便开发者学习和使用，我们提供了多个桌面系统和移动端的示例。作为一款应用于多媒体的框架，现已开源的安卓和苹果 iOS 示例包括：

3D 手部标志追踪（3D Hand Tracking）
BlazeFace 人脸检测（Face Detection）
改换发色（Hair Segmentation）
物体检测（Object Detection）

3D 手部标志追踪

人脸检测

改换发色

物体检测

MediaPipe 主要概念

MediaPipe 的核心框架由 C++ 实现，并提供 Java 以及 Objective C 等语言的支持。MediaPipe 的主要概念包括数据包（Packet）、数据流（Stream）、计算单元（Calculator）、图（Graph）以及子图（Subgraph）。数据包是最基础的数据单位，一个数据包代表了在某一特定时间节点的数据，例如一帧图像或一小段音频信号；数据流是由按时间顺序升序排列的多个数据包组成，一个数据流的某一特定时间戳（Timestamp）只允许至多一个数据包的存在；而数据流则是在多个计算单元构成的图中流动。MediaPipe 的图是有向的——数据包从数据源（Source Calculator或者 Graph Input Stream）流入图直至在汇聚结点（Sink Calculator 或者 Graph Output Stream）离开。

MediaPipe 在开源了多个由谷歌内部团队实现的计算单元（Calculator）的同时，也向用户提供定制新计算单元的接口。创建一个新的 Calculator，需要用户实现 Open()，Process()，Close() 去分别定义 Calculator 的初始化，针对数据流的处理方法，以及 Calculator 在完成所有运算后的关闭步骤。为了方便用户在多个图中复用已有的通用组件，例如图像数据的预处理、模型的推理以及图像的渲染等， MediaPipe 引入了子图（Subgraph）的概念。因此，一个 MediaPipe 图中的节点既可以是计算单元，亦可以是子图。子图在不同图内的复用，方便了大规模模块化的应用搭建。

注：计算单元链接

https://github.com/google/mediapipe/tree/master/mediapipe/calculators

想了解更多 MediaPipe 的概念和使用方法，请移步我们的 GitHub 文档。同时，我们也提供了MediaPipe 移动端的使用教程及示例代码：

MediaPipe 苹果 iOS Hello World! 教程和代码
MediaPipe 安卓 Hello World! 教程和代码

机器感知实例 —— 手部关键点追踪

一个使用 MediaPipe 的实例是在图片或视频中检测手部关键点。我们最近在谷歌 AI 博客上发表了一篇相关文章: “ 使用 MediaPipe 实现设备端实时手部追踪 ”介绍了我们如何使用 MediaPipe 来搭建这个应用。

手部关键点追踪解决方案有两部分：手掌检测（Hand Detection）及手部关键点回归（Hand Landmark Regression）。

本文将详细讲解第一部分：手掌检测。详解第二部分手部关键点检测的文章，将于近期在谷歌 TensorFlow 的微信公众号发表。请从 MediaPipe 下载手部关键点追踪的模型和图。手掌检测应用的输出结果如下图所示：

手掌模型检测教程

我们训练了基于SSD 架构的 BlazePalm 模型来进行手掌检测，并对移动端进行了优化。手部检测相较人脸检测来说，是一个更加困难的问题，例如：手的大小角度会有较大范围的变动，手没有显著的纹理结构，以及存在更多遮挡的情景。因此，我们的解决方案采取了不同的思路。我们训练的模型只对手掌区域进行检测，其好处体现在以下几点：首先，手掌相对于整个手而言是一个较为受限的目标，并且由于手掌的区域较小，我们的非极大抑制（Non-Maximum Suppression）算法也会有更好的效果，例如，在两只手相握的情况下，即使手的大部分区域重叠在一起，两只手掌的区域依然可以被区分开；其次，手掌的边框可以用正方形来描述，这样可以减少 3-5 倍数量的锚定位（Anchor），从而最大化模型的容量；最后，经过实验，我们发现使用focal loss可以获得最好的检测结果。该模型在我们的测试数据集上可以达到 95.7% 的平均准确率。

注： MediaPipe BlazePlam 手掌检测应用链接

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_detection_mobile_gpu.md

我们使用 MediaPipe 来做移动端模型推理的框架，如下图所示，input_video 为输入图像，output_video 为输出图像。为了保证整个应用的实时运算，我们使用 FlowLimiterCalculator 来筛选进行运算的输入帧数，只有当前一帧的运算完成后，才会将下一帧图像送入模型。当模型推理完成后，我们使用 MediaPipe 提供的一系列计算单元来进行输出的渲染和展示——结合使用 DetectionsToRenderDataCalculator， RectToRenderDataCalculator 及AnnotationOverlayCalculator 将检测结果渲染在输出图像上。

手掌检测应用的核心部分为上图中的蓝紫色模块（HandDetection子图）。如下图所示，HandDetection 子图包含了一系列图像处理的计算单元和机器学习模型推理的模块。ImageTransformationCalculator 将输入的图像调整到模型可以接受的尺寸，用以送入 TF Lite 模型的推理模块；使用 TfLiteTensorsToDetectionsCalculator，将模型输出的 Tensor 转换成检测结果；运用 NonMaxSuppressionCalculator 等计算单元做后处理；最终从HandDetection子图输出检测结果给主图。

致谢：感谢唐久强，张颿，杨民光，张倬领及其他 MediaPipe 团队成员。

如果您想详细了解 MediaPipe 的相关内容，请参阅以下文档：

MediaPipe GitHub & 联系我们

https://github.com/google/mediapipe

mediapipe@google.com
MediaPipe ReadtheDocs 文档

https://mediapipe.readthedocs.io/en/latest/
MediaPipe BlazeFace 人脸检测应用

https://github.com/google/mediapipe/blob/master/mediapipe/docs/face_detection_mobile_gpu.md
MediaPipe 手部标志追踪应用

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md
MediaPipe 改换发色应用

https://sites.google.com/corp/view/perception-cv4arvr/hair-segmentation
MediaPipe 示例

https://github.com/google/mediapipe/blob/master/mediapipe/docs/examples.md
MediaPipe 苹果 iOS Hello World! 教程和代码

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hello_world_ios.md
MediaPipe 安卓 Hello World! 教程和代码

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hello_world_android.md
MediaPipe Visualizer

https://viz.mediapipe.dev
MediaPipe Third Workshop on Computer Vision for AR/VR 论文

https://sites.google.com/corp/view/perception-cv4arvr/mediapipe

(本文为AI科技大本营转载文章，转载请联系作者*)

◆

精彩推荐

◆

倒计时！由易观携手CSDN联合主办的第三届易观算法大赛还剩 7 天，冠军团队将获得3万元！

本次比赛主要预测访问平台的相关事件的PV,UV流量（包括Web端，移动端等），大赛将会提供相应事件的流量数据，以及对应时间段内的所有事件明细表和用户属性表等数据，进行模型训练，并用训练好的模型预测规定日期范围内的事件流量。

推荐阅读

知乎算法团队负责人孙付伟：Graph Embedding在知乎的应用实践

必看，61篇NeurIPS深度强化学习论文解读都这里了

打破深度学习局限，强化学习、深度森林或是企业AI决策技术的“良药”

激光雷达，马斯克看不上，却又无可替代？

卷积神经网络中十大拍案叫绝的操作

Docker是啥？容器变革的火花？

5大必知的图算法，附Python代码实现

阿里云弹性计算负责人蒋林泉：亿级场景驱动的技术自研之路 | 问底中国 IT 技术演变

40 岁身体死亡，11 年后成“硅谷霍金”，他用一块屏幕改变 100 万人！

AI大神如何用区块链解决模型训练痛点, AI+区块链的正确玩法原来是这样…… | 人物志

你点的每个“在看”，我都认真当成了喜欢

登录查看更多

17

相关内容

多媒体

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

模型优化基础，Sayak Paul，67页ppt

模型优化基础，Sayak Paul，67页ppt

专知会员服务

77+阅读 · 2020年6月8日

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

专知会员服务

28+阅读 · 2019年11月14日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow 2.0从0到ML英雄（Zero to ML hero with TensorFlow 2.0），

【O'Reilly TensorFlow Conference 2019】使用TensorFlow 2.0从0到ML英雄（Zero to ML hero with TensorFlow 2.0），

专知会员服务

20+阅读 · 2019年11月14日

面向机器学习和数据分析的特征工程（Feature Engineering for Machine Learning and Data Analytics），附新书419页pdf

面向机器学习和数据分析的特征工程（Feature Engineering for Machine Learning and Data Analytics），附新书419页pdf

专知会员服务

62+阅读 · 2019年10月26日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

21个必须知道的机器学习开源工具！

21个必须知道的机器学习开源工具！

AI100

13+阅读 · 2019年9月13日

你的模型可以轻松使用TPU了！DeepMind 开源分布式机器学习库TF-Replicator

你的模型可以轻松使用TPU了！DeepMind 开源分布式机器学习库TF-Replicator

新智元

3+阅读 · 2019年3月8日

解读微软开源MMLSpark：统一的大规模机器学习生态系统

解读微软开源MMLSpark：统一的大规模机器学习生态系统

AI前线

8+阅读 · 2018年11月4日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

谷歌发布TensorFlowLite，用半监督跨平台快速训练ML模型！

谷歌发布TensorFlowLite，用半监督跨平台快速训练ML模型！

全球人工智能

5+阅读 · 2017年11月15日

资源 | GitHub上的五大开源机器学习项目

资源 | GitHub上的五大开源机器学习项目

机器之心

9+阅读 · 2017年11月9日

论文导读 | OpenCL版Caffe：高速跨平台机器学习框架

论文导读 | OpenCL版Caffe：高速跨平台机器学习框架

AI前线

4+阅读 · 2017年10月15日

【机器学习】推荐13个机器学习框架

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

谷歌开源Deeplearn.js，发挥浏览器端机器学习的威力

谷歌开源Deeplearn.js，发挥浏览器端机器学习的威力

云头条

6+阅读 · 2017年8月13日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

Arxiv

7+阅读 · 2019年4月16日

A Capsule Network-based Embedding Model for Search Personalization

Arxiv

4+阅读 · 2019年3月6日

IRLAS: Inverse Reinforcement Learning for Architecture Search

IRLAS: Inverse Reinforcement Learning for Architecture Search

Arxiv

4+阅读 · 2018年12月14日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

XNMT: The eXtensible Neural Machine Translation Toolkit

Arxiv

3+阅读 · 2018年3月1日

Multimodal Machine Learning: A Survey and Taxonomy

Arxiv

151+阅读 · 2017年8月1日

VIP会员

相关主题

机器学习模型

相关VIP内容

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

模型优化基础，Sayak Paul，67页ppt

模型优化基础，Sayak Paul，67页ppt

专知会员服务

77+阅读 · 2020年6月8日

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

专知会员服务

28+阅读 · 2019年11月14日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow 2.0从0到ML英雄（Zero to ML hero with TensorFlow 2.0），

【O'Reilly TensorFlow Conference 2019】使用TensorFlow 2.0从0到ML英雄（Zero to ML hero with TensorFlow 2.0），

专知会员服务

20+阅读 · 2019年11月14日

面向机器学习和数据分析的特征工程（Feature Engineering for Machine Learning and Data Analytics），附新书419页pdf

面向机器学习和数据分析的特征工程（Feature Engineering for Machine Learning and Data Analytics），附新书419页pdf

专知会员服务

62+阅读 · 2019年10月26日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《为多域数字战场变革装甲力量》报告

《多域训练：利用开放标准将太空与网络域同陆、海、空域训练相整合》报告

面向城市战：欧美徒步作战新装备

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

相关资讯

21个必须知道的机器学习开源工具！

21个必须知道的机器学习开源工具！

AI100

13+阅读 · 2019年9月13日

你的模型可以轻松使用TPU了！DeepMind 开源分布式机器学习库TF-Replicator

你的模型可以轻松使用TPU了！DeepMind 开源分布式机器学习库TF-Replicator

新智元

3+阅读 · 2019年3月8日

解读微软开源MMLSpark：统一的大规模机器学习生态系统

解读微软开源MMLSpark：统一的大规模机器学习生态系统

AI前线

8+阅读 · 2018年11月4日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

谷歌发布TensorFlowLite，用半监督跨平台快速训练ML模型！

谷歌发布TensorFlowLite，用半监督跨平台快速训练ML模型！

全球人工智能

5+阅读 · 2017年11月15日

资源 | GitHub上的五大开源机器学习项目

资源 | GitHub上的五大开源机器学习项目

机器之心

9+阅读 · 2017年11月9日

论文导读 | OpenCL版Caffe：高速跨平台机器学习框架

论文导读 | OpenCL版Caffe：高速跨平台机器学习框架

AI前线

4+阅读 · 2017年10月15日

【机器学习】推荐13个机器学习框架

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

谷歌开源Deeplearn.js，发挥浏览器端机器学习的威力

谷歌开源Deeplearn.js，发挥浏览器端机器学习的威力

云头条

6+阅读 · 2017年8月13日

相关论文

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

Arxiv

7+阅读 · 2019年4月16日

A Capsule Network-based Embedding Model for Search Personalization

Arxiv

4+阅读 · 2019年3月6日

IRLAS: Inverse Reinforcement Learning for Architecture Search

IRLAS: Inverse Reinforcement Learning for Architecture Search

Arxiv

4+阅读 · 2018年12月14日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

XNMT: The eXtensible Neural Machine Translation Toolkit

Arxiv

3+阅读 · 2018年3月1日

Multimodal Machine Learning: A Survey and Taxonomy

Arxiv

151+阅读 · 2017年8月1日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员