Multi-person human mesh recovery from a single image is a challenging task, hindered by the scarcity of in-the-wild training data. Prevailing in-the-wild human mesh pseudo-ground-truth (pGT) generation pipelines are single-person-centric, where each human is processed individually without joint optimization. This oversight leads to a lack of scene-level consistency, producing individuals with conflicting depths and scales within the same image. To address this, we introduce Depth-conditioned Translation Optimization (DTO), a novel optimization-based method that jointly refines the camera-space translations of all individuals in a crowd. By leveraging anthropometric priors on human height and depth cues from a monocular depth estimator, DTO solves for a scene-consistent placement of all subjects within a principled Maximum a posteriori (MAP) framework. Applying DTO to the 4D-Humans dataset, we construct DTO-Humans, a new large-scale pGT dataset of 0.56M high-quality, scene-consistent multi-person images, featuring dense crowds with an average of 4.8 persons per image. Furthermore, we propose Metric-Aware HMR, an end-to-end network that directly estimates human mesh and camera parameters in metric scale. This is enabled by a camera branch and a novel relative metric loss that enforces plausible relative scales. Extensive experiments demonstrate that our method achieves state-of-the-art performance on relative depth reasoning and human mesh recovery. Code and data will be released publicly.


翻译:从单张图像中恢复多人体网格是一项具有挑战性的任务,主要受限于野外训练数据的稀缺性。当前主流的野外人体网格伪真值生成流程以单人为中心,每个个体被独立处理而缺乏联合优化。这种疏忽导致场景级一致性的缺失,使得同一图像中的个体在深度和尺度上产生冲突。为解决这一问题,我们提出了深度条件平移优化,这是一种基于优化的新方法,可联合细化相机空间中所有个体的平移。通过利用人体高度的先验知识和单目深度估计器提供的深度线索,DTO在一个原则性的最大后验概率框架内求解所有主体的场景一致放置。将DTO应用于4D-Humans数据集,我们构建了DTO-Humans,这是一个包含56万张高质量、场景一致的多人体图像的新大规模伪真值数据集,其特点是人群密集,平均每张图像包含4.8人。此外,我们提出了度量感知人体网格恢复,这是一个端到端网络,可直接在度量尺度上估计人体网格和相机参数。这通过一个相机分支和一个新颖的相对度量损失实现,该损失强制施加合理的相对尺度。大量实验表明,我们的方法在相对深度推理和人体网格恢复方面达到了最先进的性能。代码和数据将公开释放。

0
下载
关闭预览

相关内容

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员