Lifting based 3D human pose estimators infer 3D joints from 2D keypoints, but often struggle to generalize to real world settings with noisy 2D detections. We revisit the input to lifting and propose AugLift, a simple augmentation of standard lifting that enriches each 2D keypoint (x, y) with an Uncertainty Aware Depth Descriptor (UADD). We run a single off the shelf monocular depth estimator to obtain a depth map, and for every keypoint with detector confidence c we extract depth statistics from its confidence scaled neighborhood, forming a compact, interpretable UADD (c, d, d_min, d_max) that captures both local geometry and reliability. AugLift is modular, requires no new sensors or architectural changes, and integrates by expanding the input layer of existing lifting models. Across four datasets and four lifting architectures, AugLift boosts cross dataset (out of distribution) performance on unseen data by an average of 10.1 percent, while also improving in distribution performance by 4.0 percent as measured by MPJPE. A post hoc analysis clarifies when and why it helps: gains are largest on novel poses and significantly occluded joints, where depth statistics resolve front back ambiguities while confidence calibrates the spatial neighborhoods from which they are drawn. We also study interaction with recent image feature lifting methods and find the signals are complementary: adding UADD to image conditioned lifting yields both ID and OOD gains. A learned depth feature extension (AugLiftV2) improves performance further while trading off interpretability. Together, these results indicate that lightweight, confidence aware depth cues are a powerful plug in for robust 2D to 3D pose lifting.


翻译:基于提升的3D人体姿态估计器从2D关键点推断3D关节,但在处理真实场景中带噪声的2D检测时往往泛化能力不足。我们重新审视提升模型的输入,提出AugLift——一种对标准提升方法的简单增强,通过为每个2D关键点(x, y)添加不确定性感知深度描述符(UADD)来丰富输入信息。我们运行一个现成的单目深度估计器获取深度图,并为每个检测置信度为c的关键点从其置信度加权的邻域中提取深度统计量,形成一个紧凑且可解释的UADD(c, d, d_min, d_max),该描述符同时捕捉局部几何特征和可靠性。AugLift具有模块化特性,无需新增传感器或改变网络架构,仅通过扩展现有提升模型的输入层即可集成。在四个数据集和四种提升架构上的实验表明,AugLift在未见数据上的跨数据集(分布外)性能平均提升10.1%(以MPJPE指标衡量),同时分布内性能也提升4.0%。事后分析阐明了其生效机制:在新颖姿态和严重遮挡关节上提升最显著,此时深度统计量能解决前后景歧义,而置信度则校准了提取统计量的空间邻域范围。我们还研究了其与近期基于图像特征的提升方法的交互,发现二者信号具有互补性:在图像条件化提升模型中添加UADD能同时提升分布内和分布外性能。进一步提出的学习型深度特征扩展版本(AugLiftV2)以可解释性为代价实现了更优性能。这些结果表明,轻量级且置信度感知的深度线索是构建鲁棒2D到3D姿态提升系统的有效插件。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
34+阅读 · 2023年3月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员