由于智能手机上没有深度摄像头,在手机上的动作捕捉就必须依靠单目动捕,基于单目的的动作捕捉方案就成了一个必须跨过的门槛。而由于实际中存在的像遮挡、深度、难以估计骨架姿势等问题,单目动作捕捉的解决方案就变得比较复杂。
最近,瑞士洛桑联邦理工学院(EPFL)和德国普朗克计算机研究所的研究人员发表论文,展示了一种基于单个单眼相机的“无标记性能捕获技术”MonoPerfCap,可以实现基于单目的动作捕捉,并且可以实现服装的3D重建。
简单来说,MonoPerfCap的原理分两步完成,首先是将摄像头绕目标人物一圈,在这个过程中,可以实现对目标人物轮廓的识别和信息的采集,并且基于轮廓生成一个目标人物的骨架模型,这样有利于动作的捕捉,而其它信息的采集可以应用到外部模型的渲染。
论文表示,MonoPerfCap基于轮廓的姿态细化改善了姿态估计和轮廓分割。 姿势估计中的错误导致在左臂附近不准确的背景减法。而MonoPerfCap的姿态细化将手臂骨架向左移动到正确的位置。 剪影在第二轮廓提取之后分割被显着地细化基于精确的姿势(e)。
第二步是基于第一步识别的骨架模型计算出连接点,再基于卷积神经网络的学习估计出做动作时骨架姿势的变化,随后在骨架模型上渲染出整个人身体的轮廓。
通过使用这种提出的方法,我们不仅可以重建人体姿势,而且还可以重建衣服的穿着动作,并且使我们能够从自由的角度进行渲染。但是,高速运动时和出现强遮挡时的识别变得略不稳定。
MonoPerfCap的研究人员将自己的动作捕捉分别和2015、2016、2017的方法比较,用MonoPerfCap方法得到的结果优于其它方法的结果,甚至已经非常接近8台摄像机多视角动作捕捉的结果。
首先,这种捕捉方法必须依靠大约半分钟的对目标人物的圆形扫描,虽然之后的处理是不需要人干预的,但仍然略显麻烦。
另外,有的场景下的识别仍然有可能捕捉失败,由于一般视角下对脚的捕捉很难实现,所以像有大量遮挡的情况或者当运动非常迅速的时候,就可能失败。如果目标人物穿着像风衣或者夹克这样的衣服时,很可能对摄像头的识别造成干扰,从而无法捕捉。在论文的示例中,捕捉目标都穿着比较贴近身体的衣服。
这是论文对各个人物目标的识别示例,可以看到识别效果比较好,另外衣服和身体的细节渲染也不错。
前两天我们还刚提到过一个单目动捕方案Vnect,它们在原理上的差别其实不大,同样是基于骨架模型,同样利用卷积神经网络进行学习,区别在于Vnect只能估算出骨架的姿势模型,MonoPerfCap还添加了估计外部身体姿势和和衣服细节的能力,相对来说更加成熟。
其实,MonoPerfCap的方案不止可以应用到动作捕捉上,就论文中实现的方案来看,这个方案同样可以用来识别合适的视频中人物的动作。
总而言之,MonoPerfCap可以适用于各种不同的场景,复杂的背景也不会对识别结果产生影响,在性能方面也已经超越了之前的方案,细节渲染尤其可圈可点,可以说是一个比较出彩的单眼动作捕捉方案了。对此有兴趣的同学也可以点击阅读原文下载论文。
这里“阅读原文”,查看更多