33个关键点——谷歌研究人员提出全新神经网络BlazePose，可健身跟踪、手语识别

会员服务 ·

33个关键点——谷歌研究人员提出全新神经网络BlazePose，可健身跟踪、手语识别

2020 年 7 月 22 日 新智元

新智元报道

来源：arxiv

编辑：雅新

【新智元导读】谷歌研究人员最近在CVPR 2020上发表的一篇论文提出了用于边缘设备上运行的单人人体姿态估计算法BlazePose。该算法在中端手机CPU上的性能比20核桌面CPU上的OpenPose还要快25-75倍。

根据图像或视频进行人体姿势估计在如健康跟踪、手语识别等实际应用中起着核心作用。由于个体会做出各种各样的姿势，此任务具有极大的挑战性。

谷歌研究人员最近在 CVPR 2020 上发表的一篇论文提出了用于边缘设备上运行的单人人体姿态估计算法BlazePose 。

在推断过程中，采用推断身体33个关键点的轻量卷积网络，用编解码器直接推断边框，并在Pixel 2手机上推断速度可达到30fps。BlazePose在中端手机CPU上性能比20核桌面CPU上的OpenPose还要快25-75倍。

论文地址：https://arxiv.org/pdf/2006.10204.pdf

用面部检测器代替身体检测器，速度超OpenPose

最近的研究工作在姿势估计方面有了重大进展。而这些进展大都采用的方法是为每个关节生成热图以及每个坐标精炼偏移量。

虽然这种选择的热图可以扩展到多个人，但它使一个人的模型比适用于手机上的实时推断的模型大得多。而谷歌研究人员在此解决了这个特殊的用例，并演示了该模型的显著加速，而几乎没有质量下降。

与基于热图的技术相比，基于回归的方法虽然对计算的要求较低且可扩展性更高，但它们试图预测平均坐标值，但往往无法解决潜在的歧义。

研究人员在人体姿态估计上和之前的做法有很大的不同。

使用面部检测器而不是人体检测器检测人体。 研究人员发现，由于使用身体检测器容易受场景中密集人群遮挡的影响，如果在遮挡严重状态下，身体检测器的信任值不会很高。

但是人的脸部比起全身就不容易被遮挡，而且在神经网络中这一部分的响应值往往是最高的。

网络是有两个部分组成，分别是关键点检测部分和关键点回归部分。这个网络新颖的地方在于，在训练阶段，关键点检测和回归一起训练。在测试的时候，去掉检测部分，仅保留回归部分，这样可以加快运行速度。

研究人员通过实验证明了这种方法在大幅加速的同时也没有损失精度，网络结构如下：

除此之外，研究人员在训练阶段根据模型的应用场景，针对性的对数据增强部分做了限制，这样降低了模型学习复杂场景的能力，但能让模型更快的去学习真实场景下的数据。除了姿势检测部分，整体模型还包含了一个pose tracker用来做跟踪。

如果在当前姿势检测器能够预测到下一帧中姿势位置的时候，姿势检测器就不会运行，会一直使用姿势追踪器的结果，否则就会运行检测器，并重新初始化追踪器。

研究人员最后在自己创建的数据集上，将自己的模型和OpenPose的做了比较，速度远超OpenPose精度略差。

研究人员开发了这种新的，在设备上单人特定的人体姿势估计模型，可以支持各种性能要求高的用例，例如手势，健身跟踪和AR。该模型在移动CPU上几乎实时工作，并且可以在移动GP U上加快超实时延迟。

研究人员表示，「即使参数数量较少，堆叠式沙漏架构也可以显着提高预测质量。我们在工作中扩展了这个想法，并使用编码器-解码器网络体系结构预测所有关节的热图，然后使用另一个编码器直接回归到所有关节的坐标。我们工作背后的关键点是可以在推理过程中丢弃热图分支，使其足够轻巧，可以在手机上运行。」

项目介绍

参考链接：

https://arxiv.org/abs/2006.10204

https://www.arxiv-vanity.com/papers/2006.10204/

登录查看更多

相关内容

BlazePose

关注 0

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

基于深度学习的手语识别综述

专知会员服务

47+阅读 · 2020年5月18日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack

专知会员服务

45+阅读 · 2020年4月10日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

Nature论文：用于自主血管通路的深度学习机器人导航，新泽西州立大学

专知会员服务

24+阅读 · 2020年2月17日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

加盟依图科技后，颜水成首篇顶会论文提出“高效多人体姿态检测SPM”

量子位

5+阅读 · 2019年9月16日

200～1000+fps！谷歌公布亚毫秒级人脸检测算法BlazeFace，面向移动GPU

极市平台

14+阅读 · 2019年7月22日

重磅！商汤开源Grid R-CNN Plus：相比Grid RCNN，速度更快，精度更高

极市平台

8+阅读 · 2019年6月21日

谷歌提出MorphNet：网络规模更小、速度更快！

全球人工智能

4+阅读 · 2019年4月20日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

AI前线

6+阅读 · 2019年3月10日

人体骨骼关键点检测综述

极市平台

22+阅读 · 2018年6月29日

学界 | 华盛顿大学推出YOLOv3：检测速度快SSD和RetinaNet三倍（附实现）

机器之心

7+阅读 · 2018年3月27日

微表情检测和识别的研究进展与趋势

中国计算机学会

15+阅读 · 2018年3月23日

基础｜人脸识别的十个关键技术组成及原理！

全球人工智能

5+阅读 · 2017年7月27日

EfficientDet: Scalable and Efficient Object Detection

Arxiv

6+阅读 · 2019年11月20日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Arxiv

3+阅读 · 2019年5月28日

MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM

Arxiv

8+阅读 · 2018年12月20日

Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding

Arxiv

8+阅读 · 2018年8月22日

Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images

Arxiv

6+阅读 · 2018年7月19日

Mixing Context Granularities for Improved Entity Linking on Question Answering Data across Entity Categories

Arxiv

3+阅读 · 2018年4月23日

YOLOv3: An Incremental Improvement

Arxiv

8+阅读 · 2018年4月8日

Integrating semi-supervised label propagation and random forests for multi-atlas based hippocampus segmentation

Arxiv

3+阅读 · 2017年12月31日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

VIP会员