Recent approaches for monocular 3D human pose estimation (3D HPE) have achieved leading performance by directly regressing 3D poses from 2D keypoint sequences. Despite the rapid progress in 3D HPE, existing methods are typically trained and evaluated under disparate frameworks, lacking a unified framework for fair comparison. To address these limitations, we propose Fast3DHPE, a modular framework that facilitates rapid reproduction and flexible development of new methods. By standardizing training and evaluation protocols, Fast3DHPE enables fair comparison across 3D human pose estimation methods while significantly improving training efficiency. Within this framework, we introduce FastDDHPose, a Disentangled Diffusion-based 3D Human Pose Estimation method which leverages the strong latent distribution modeling capability of diffusion models to explicitly model the distributions of bone length and bone direction while avoiding further amplification of hierarchical error accumulation. Moreover, we design an efficient Kinematic-Hierarchical Spatial and Temporal Denoiser that encourages the model to focus on kinematic joint hierarchies while avoiding unnecessary modeling of overly complex joint topologies. Extensive experiments on Human3.6M and MPI-INF-3DHP show that the Fast3DHPE framework enables fair comparison of all methods while significantly improving training efficiency. Within this unified framework, FastDDHPose achieves state-of-the-art performance with strong generalization and robustness in in-the-wild scenarios. The framework and models will be released at: https://github.com/Andyen512/Fast3DHPE


翻译:近年来,基于单目图像的三维人体姿态估计方法通过直接从二维关键点序列回归三维姿态,取得了领先的性能。尽管三维人体姿态估计领域进展迅速,但现有方法通常在差异化的框架下进行训练和评估,缺乏一个用于公平比较的统一框架。为应对这些局限性,我们提出了Fast3DHPE,一个模块化框架,旨在促进新方法的快速复现与灵活开发。通过标准化训练与评估协议,Fast3DHPE在显著提升训练效率的同时,实现了不同三维人体姿态估计方法间的公平比较。在此框架内,我们引入了FastDDHPose,一种基于解耦扩散模型的三维人体姿态估计方法。该方法利用扩散模型强大的潜在分布建模能力,显式地对骨骼长度与骨骼方向的分布进行建模,同时避免了层级误差累积的进一步放大。此外,我们设计了一个高效的基于运动学层级结构的时空去噪器,促使模型专注于运动学关节层级关系,避免对过度复杂的关节拓扑进行不必要的建模。在Human3.6M和MPI-INF-3DHP数据集上的大量实验表明,Fast3DHPE框架能够公平比较所有方法,并显著提升训练效率。在此统一框架下,FastDDHPose在野外场景中展现出强大的泛化能力和鲁棒性,取得了最先进的性能。该框架与模型将在以下地址发布:https://github.com/Andyen512/Fast3DHPE

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员