开源项目VNect使用普通手机摄像头进行动作捕捉，媲美深度摄像头 - 专知

会员服务 ·

0

开源项目VNect使用普通手机摄像头进行动作捕捉，媲美深度摄像头

2018 年 5 月 12 日 AR酱 丸子酱

动作捕捉在各行各业都有着重要的作用，我们实现它的方法主要有两种。一是在电影和游戏当中经常使用的方式，通过在关节处贴上标志来记录运动轨迹；

二则是深度摄像头，通过红外来测量用户的身体，这个大家都十分熟悉了。前者根本无法普及，后者在强光下效率低下，但拥有一个共同的优良品质—昂贵。

而市场上充满的是普通智能手机，如果能够仅仅通过普通智能手机的摄像头实现身体追踪，那这将是一个巨大的进步。

除了便宜，普通摄像头较深度摄像头的另一大优势就是视野广，可以用于大场景的使用。同时基于红外的深度摄像头在户外阳光直射的条件下难以工作，2D摄像头却没有这个烦恼。

目前，马克思普朗克计算机科学研究所的科学家们研发出了一款只通过单个普通的2D摄像头（比如普通智能手机的摄像头），就能实时捕捉视频中的3D动作的系统。其效果可以媲美多个摄像头或者深度摄像头如Kinect的效果。

使用2D摄像头获得3D画面是科技前沿的开发者一直在做的事情，我们曾多次提到过，简单点说就是通过深度学习，也就是看得多了就能通过2D画面得出3D动作，例如通过照片就能的出一个人样貌的3D画面。

用2D摄像头捕捉3D动作也是科学家们一直在做的，其中骨骼姿势是其中的一大难题。前人的解决方案中，3D关节是十分不稳定的，会发生严重的偏离，重新投影时会不准确匹配2D位置。即使准确，也只是在极短的时间内，长时间下还是不稳定的。这导致他们大多数只能稳定捕获局部3D动作，而不是全身。

VNect解决了时间问题，可以在短时间内骨骼姿势稳定，同时还是全身动作捕捉。

VNect采用卷积神经网络（CNN），抛弃了以往的100层设计，因为运算时间过长，不适合实时运算，改为更浅的50层。同时了全新的公式，使得能以高精度输出，同时运行在30Hz以上。

在CNN的骨骼预测当中，最重要的骨盆的3D姿势，他们提出的姿态公式得出的结果，吻合度可与世界最先进的离线方法媲美。通过组合预测2D和3D关节位置来确保关节的稳定，同时应用滤波步骤来确保随着时间的推移还能够平滑的跟踪，提高了跟踪姿态的稳定性。

根据图片拓展出来了2D热图，再捕获关节的相对位置x、y、z，变为关节H。根据关节之间的长度计算骨骼的长度，这将成为预测动作的重要依据。采集了通常考虑的17个关节，还采取了脚尖的位置。

系统使用的是骨骼的平均数据，在刚开始的时候会有不稳定的现象，因为单个摄像头没有其他数据可以参考，所以需要被跟踪对象提供一次身高的数据，来实现稳定的追踪。

同时系统是完全卷积的，可以在目标周围缺少紧凑物的情况下运作，并能预测不同的场景，这无疑给准确的测量提供了坚实的基础。

在训练时，选择了八个项目，五个与胸同高，2个与头同高并向下倾斜，一个与膝盖同高并向上倾斜，来学习在不同角度下保持稳定。同时采用了多种组合，如背景、衣物（增多衣物）、障碍物（如椅子）等等。

结果是喜人的，在使用低端手机的相机条件下，在3D角色控制、姿态跟踪等方面，质量与深度摄像头相当，例如Xbox上的Kinect（也就是一代和二代，可不是最新的四代）。

在速度上，CNN计算需要18ms，骨架拟合需要7到10ms，预处理和过滤需要5ms，最多时间也只有33ms。

除去前文介绍的优势，该方案还具备深度摄像头不具备的功能，比如坐在凳子上或其他四肢靠近场景物体时，Kinect发生明显错乱，而2D解决方案却成功了。不过当双腿交叉时，就较为困难了，这将是一个挑战。

通过VNect，任何一个智能手机都能变成轻量级的全自动手持动作捕捉传感器，这将使许多应用变成可能，同时它还是开源的，可以使更多人参与到开发当中。

不过它也存在着许多不足，VNect脚踝追踪十分稳定，但头部准确性十分差。而且单个2D摄像头在深度捕捉上严重不足，任何一点细微的不准确都可能导致很大的不同。在时间上也不够长，长时间下追踪也会发生抖动。此外，遮挡还是一个十分严峻的挑战，十分快的运动也是。

阅读推荐

Google开源VR渲染优化工具Seurat

英伟达RTX光线追踪来了，你的钱包准备好了吗

厉害了我的谷歌 ARcore 将支持多人AR体验

登录查看更多

9

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2020】时序分组注意力视频超分

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

图卷积在基于骨架的动作识别中的应用

图卷积在基于骨架的动作识别中的应用

极市平台

24+阅读 · 2019年6月4日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

AI100

6+阅读 · 2019年3月20日

已删除

将门创投

8+阅读 · 2019年1月4日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

10+阅读 · 2018年2月27日

Dynamic Weight Alignment for Convolutional Neural Networks

Arxiv

6+阅读 · 2018年1月25日

VIP会员

相关主题

卷积神经网络

相关VIP内容

【CVPR2020】时序分组注意力视频超分

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

图卷积在基于骨架的动作识别中的应用

图卷积在基于骨架的动作识别中的应用

极市平台

24+阅读 · 2019年6月4日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

AI100

6+阅读 · 2019年3月20日

已删除

将门创投

8+阅读 · 2019年1月4日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

相关论文

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

10+阅读 · 2018年2月27日

Dynamic Weight Alignment for Convolutional Neural Networks

Arxiv

6+阅读 · 2018年1月25日

大家都在搜

大型语言模型

蓝牙安全攻防

沥青混合料配合比

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员