We consider the task of estimating 3D human pose and shape from videos. While existing frame-based approaches have made significant progress, these methods are independently applied to each image, thereby often leading to inconsistent predictions. In this work, we present a video-based learning algorithm for 3D human pose and shape estimation. The key insights of our method are two-fold. First, to address the inconsistent temporal prediction issue, we exploit temporal information in videos and propose a self-attention module that jointly considers short-range and long-range dependencies across frames, resulting in temporally coherent estimations. Second, we model human motion with a forecasting module that allows the transition between adjacent frames to be smooth. We evaluate our method on the 3DPW, MPI-INF-3DHP, and Human3.6M datasets. Extensive experimental results show that our algorithm performs favorably against the state-of-the-art methods.


翻译:我们考虑的是从视频中估算3D人的外形和形状的任务。 虽然现有的基于框架的方法已经取得了显著的进展,但这些方法被独立地应用于每个图像,从而往往导致前后不一的预测。 在这项工作中,我们为3D人的外形和形状估算提供了基于视频的学习算法。我们的方法的关键洞察力是双重的。首先,为了解决时间预测不一致的问题,我们在视频中利用时间信息,并提出一个共同考虑跨框架的短距离和长距离依赖性的自我关注模块,从而得出时间上一致的估计。第二,我们用一个预测模块模拟人类运动,使相邻框架之间的过渡能够顺利进行。我们在3DPW、MPI-INF-3DHP和Human3.6M数据集上评估了我们的方法。广泛的实验结果显示,我们的算法对最先进的方法有利。

0
下载
关闭预览

相关内容

最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
专知会员服务
42+阅读 · 2020年12月18日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
已删除
将门创投
4+阅读 · 2020年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
相关VIP内容
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
专知会员服务
42+阅读 · 2020年12月18日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
Top
微信扫码咨询专知VIP会员