Training state-of-the-art models for human body pose and shape recovery from images or videos requires datasets with corresponding annotations that are really hard and expensive to obtain. Our goal in this paper is to study whether poses from 3D Motion Capture (MoCap) data can be used to improve image-based and video-based human mesh recovery methods. We find that fine-tune image-based models with synthetic renderings from MoCap data can increase their performance, by providing them with a wider variety of poses, textures and backgrounds. In fact, we show that simply fine-tuning the batch normalization layers of the model is enough to achieve large gains. We further study the use of MoCap data for video, and introduce PoseBERT, a transformer module that directly regresses the pose parameters and is trained via masked modeling. It is simple, generic and can be plugged on top of any state-of-the-art image-based model in order to transform it in a video-based model leveraging temporal information. Our experimental results show that the proposed approaches reach state-of-the-art performance on various datasets including 3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB and AIST. Test code and models will be available soon.


翻译:本文的目标是研究3D运动捕获(Mocap)数据是否可用于改进基于图像的和视频的人类网状恢复方法。我们发现,使用来自MoCap数据的合成图像成像的微调图像模型可以通过提供更广泛的成像、纹理和背景来提升其性能。事实上,我们实验结果表明,仅仅微调该模型的批次正常化层就足以实现巨大收益。我们进一步研究了将MCAP数据用于视频,并引入了PoseBERT,这是一个直接反转成形参数的变压器模块,通过蒙面模型进行训练。我们发现,使用MCap数据合成成像成像的微调图像模型可以提高其性能,为其提供更广泛的成像、质素和背景。我们实验结果显示,拟议的方法将达到各种数据集的状态性能,包括3DP-3MSTI、MP-3INF和MPO-DSBR。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年8月8日
区块链白皮书(2020年),60页pdf
专知会员服务
92+阅读 · 2021年1月5日
最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年12月14日
Arxiv
4+阅读 · 2019年8月7日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
VIP会员
相关VIP内容
专知会员服务
51+阅读 · 2021年8月8日
区块链白皮书(2020年),60页pdf
专知会员服务
92+阅读 · 2021年1月5日
最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员