Transformer architectures have become the model of choice in natural language processing and are now being introduced into computer vision tasks such as image classification, object detection, and semantic segmentation. However, in the field of human pose estimation, convolutional architectures still remain dominant. In this work, we present PoseFormer, a purely transformer-based approach for 3D human pose estimation in videos without convolutional architectures involved. Inspired by recent developments in vision transformers, we design a spatial-temporal transformer structure to comprehensively model the human joint relations within each frame as well as the temporal correlations across frames, then output an accurate 3D human pose of the center frame. We quantitatively and qualitatively evaluate our method on two popular and standard benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments show that PoseFormer achieves state-of-the-art performance on both datasets. Code is available at \url{https://github.com/zczcwh/PoseFormer}


翻译:在自然语言处理过程中,变形器结构已成为选择自然语言处理的模型,目前正在引入计算机视觉任务,如图像分类、物体探测和语义分割等。然而,在人造图估测领域,变形结构仍然占主导地位。在这项工作中,我们介绍了PoseFormer, 这是一种纯粹以变压器为基础的方法,用于在视频中进行3D人造图估测,而没有涉及变动结构。受视觉变压器最近发展情况的启发,我们设计了一个时空变异器结构,全面模拟每个框架内部的人类联合关系以及跨框架的时间相关性,然后输出一个准确的3D人造图。我们在两个流行和标准的基准数据集:Human3.6M和MPI-INF-3DHP上,我们从数量和质量上评估了我们的方法。广泛的实验显示,PoseFormer在两个数据集上都取得了状态和艺术表现。代码可在\url{http://github.com/zzwh/Posemer}

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年3月9日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
5+阅读 · 2018年4月13日
VIP会员
相关资讯
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员