The attention mechanism provides a sequential prediction framework for learning spatial models with enhanced implicit temporal consistency. In this work, we show a systematic design (from 2D to 3D) for how conventional networks and other forms of constraints can be incorporated into the attention framework for learning long-range dependencies for the task of pose estimation. The contribution of this paper is to provide a systematic approach for designing and training of attention-based models for the end-to-end pose estimation, with the flexibility and scalability of arbitrary video sequences as input. We achieve this by adapting temporal receptive field via a multi-scale structure of dilated convolutions. Besides, the proposed architecture can be easily adapted to a causal model enabling real-time performance. Any off-the-shelf 2D pose estimation systems, e.g. Mocap libraries, can be easily integrated in an ad-hoc fashion. Our method achieves the state-of-the-art performance and outperforms existing methods by reducing the mean per joint position error to 33.4 mm on Human3.6M dataset.


翻译:关注机制为学习空间模型提供了顺序预测框架,提高了隐含的时间一致性。在这项工作中,我们展示了一种系统的设计(从 2D 到 3D),用于将传统网络和其他形式的制约因素纳入关注框架,以学习长期依赖性,以了解进行构成估计的任务。本文件的贡献是提供一种系统的方法,用于设计和培训基于关注的模型,用于最终到最终的预测,并具有作为投入的任意视频序列的灵活性和可缩放性。我们通过一个多尺度的变相结构来调整时间可容域。此外,拟议的结构可以很容易地适应一个促成实时性能的因果模型。任何外的2D构成估算系统,例如Mocap图书馆,都可以很容易地融入到一个特别的状态中。我们的方法通过将人文3.6M数据集上每个联合位置的平均误差减少到33.4毫米,从而实现最先进的性能并超越现有方法。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
109+阅读 · 2020年3月12日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
计算机视觉领域顶会CVPR 2018 接受论文列表
Arxiv
0+阅读 · 2021年4月27日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
109+阅读 · 2020年3月12日
Top
微信扫码咨询专知VIP会员