In this paper, we propose a new single shot method for multi-person 3D human pose estimation in complex images. The model jointly learns to locate the human joints in the image, to estimate their 3D coordinates and to group these predictions into full human skeletons. The proposed method deals with a variable number of people and does not need bounding boxes to estimate the 3D poses. It leverages and extends the Stacked Hourglass Network and its multi-scale feature learning to manage multi-person situations. Thus, we exploit a robust 3D human pose formulation to fully describe several 3D human poses even in case of strong occlusions or crops. Then, joint grouping and human pose estimation for an arbitrary number of people are performed using the associative embedding method. Our approach significantly outperforms the state of the art on the challenging CMU Panoptic and a previous single shot method on the MuPoTS-3D dataset. Furthermore, it leads to good results on the complex and synthetic images from the newly proposed JTA Dataset.


翻译:在本文中,我们提出了对多人的3D人构成的复杂图像进行新的单一拍摄方法。模型共同学习在图像中定位人的关节,估计其3D坐标,并将这些预测归为完整的人体骨骼。拟议方法涉及人数的变数,不需要捆绑框来估计3D构成的大小。它利用并扩展了堆积式沙漏网络及其多尺度特征学习来管理多人状况。因此,我们利用一个强健的3D人构成配方来充分描述数个3D人构成的大小,即使出现强的隔离或作物。然后,利用联合嵌入法对任意人数进行组合和人类构成估计。我们的方法大大超越了具有挑战性的 CMU Panopic 和 MuPOTS-3D数据集上以前的单一拍摄方法的先进程度。此外,它还导致新提议的JTA数据集的复杂和合成图像取得良好结果。

0
下载
关闭预览

相关内容

CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Facebook实时人体姿态估计:Dense Pose及其应用展望
机器之心
9+阅读 · 2019年2月10日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
Arxiv
0+阅读 · 2021年3月5日
Arxiv
27+阅读 · 2020年12月24日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Arxiv
5+阅读 · 2018年4月13日
VIP会员
Top
微信扫码咨询专知VIP会员