MonoPerfCap：又一个单目动作捕捉方案

2018 年 5 月 20 日 AR酱

由于智能手机上没有深度摄像头，在手机上的动作捕捉就必须依靠单目动捕，基于单目的的动作捕捉方案就成了一个必须跨过的门槛。而由于实际中存在的像遮挡、深度、难以估计骨架姿势等问题，单目动作捕捉的解决方案就变得比较复杂。

最近，瑞士洛桑联邦理工学院（EPFL）和德国普朗克计算机研究所的研究人员发表论文，展示了一种基于单个单眼相机的“无标记性能捕获技术”MonoPerfCap，可以实现基于单目的动作捕捉，并且可以实现服装的3D重建。

简单来说，MonoPerfCap的原理分两步完成，首先是将摄像头绕目标人物一圈，在这个过程中，可以实现对目标人物轮廓的识别和信息的采集，并且基于轮廓生成一个目标人物的骨架模型，这样有利于动作的捕捉，而其它信息的采集可以应用到外部模型的渲染。

论文表示，MonoPerfCap基于轮廓的姿态细化改善了姿态估计和轮廓分割。姿势估计中的错误导致在左臂附近不准确的背景减法。而MonoPerfCap的姿态细化将手臂骨架向左移动到正确的位置。剪影在第二轮廓提取之后分割被显着地细化基于精确的姿势（e）。

第二步是基于第一步识别的骨架模型计算出连接点，再基于卷积神经网络的学习估计出做动作时骨架姿势的变化，随后在骨架模型上渲染出整个人身体的轮廓。

通过使用这种提出的方法，我们不仅可以重建人体姿势，而且还可以重建衣服的穿着动作，并且使我们能够从自由的角度进行渲染。但是，高速运动时和出现强遮挡时的识别变得略不稳定。

MonoPerfCap的研究人员将自己的动作捕捉分别和2015、2016、2017的方法比较，用MonoPerfCap方法得到的结果优于其它方法的结果，甚至已经非常接近8台摄像机多视角动作捕捉的结果。

首先，这种捕捉方法必须依靠大约半分钟的对目标人物的圆形扫描，虽然之后的处理是不需要人干预的，但仍然略显麻烦。

另外，有的场景下的识别仍然有可能捕捉失败，由于一般视角下对脚的捕捉很难实现，所以像有大量遮挡的情况或者当运动非常迅速的时候，就可能失败。如果目标人物穿着像风衣或者夹克这样的衣服时，很可能对摄像头的识别造成干扰，从而无法捕捉。在论文的示例中，捕捉目标都穿着比较贴近身体的衣服。

这是论文对各个人物目标的识别示例，可以看到识别效果比较好，另外衣服和身体的细节渲染也不错。

前两天我们还刚提到过一个单目动捕方案Vnect，它们在原理上的差别其实不大，同样是基于骨架模型，同样利用卷积神经网络进行学习，区别在于Vnect只能估算出骨架的姿势模型，MonoPerfCap还添加了估计外部身体姿势和和衣服细节的能力，相对来说更加成熟。

其实，MonoPerfCap的方案不止可以应用到动作捕捉上，就论文中实现的方案来看，这个方案同样可以用来识别合适的视频中人物的动作。

总而言之，MonoPerfCap可以适用于各种不同的场景，复杂的背景也不会对识别结果产生影响，在性能方面也已经超越了之前的方案，细节渲染尤其可圈可点，可以说是一个比较出彩的单眼动作捕捉方案了。对此有兴趣的同学也可以点击阅读原文下载论文。

点

这里“阅读原文”，查看更多

登录查看更多

相关内容

CAP

关注 10

CAP原则又称CAP定理，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

专知会员服务

69+阅读 · 2019年11月23日

【泡泡机器人】也来谈语义SLAM/语义地图

泡泡机器人SLAM

21+阅读 · 2019年3月12日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

开源项目VNect使用普通手机摄像头进行动作捕捉，媲美深度摄像头

AR酱

9+阅读 · 2018年5月12日

计算机视觉方向简介 | 单目微运动生成深度图

计算机视觉life

7+阅读 · 2018年1月17日

卡内基梅隆大学提出基于学习的动作捕捉模型，用自监督学习实现人类3D动作追踪

极市平台

4+阅读 · 2017年12月13日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

7+阅读 · 2020年3月30日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation

Arxiv

5+阅读 · 2018年10月3日

Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-Free Approach

Arxiv

4+阅读 · 2018年4月1日

VIP会员