This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline that first detects people in bounding boxes and then independently regresses their 3D body meshes. In contrast, we propose to Regress all meshes in a One-stage fashion for Multiple 3D People (termed ROMP). The approach is conceptually simple, bounding box-free, and able to learn a per-pixel representation in an end-to-end manner. Our method simultaneously predicts a Body Center heatmap and a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel level. Through a body-center-guided sampling process, the body mesh parameters of all people in the image are easily extracted from the Mesh Parameter map. Equipped with such a fine-grained representation, our one-stage framework is free of the complex multi-stage process and more robust to occlusion. Compared with state-of-the-art methods, ROMP achieves superior performance on the challenging multi-person benchmarks, including 3DPW and CMU Panoptic. Experiments on crowded/occluded datasets demonstrate the robustness under various types of occlusion. The released code is the first real-time implementation of monocular multi-person 3D mesh regression.
翻译:本文侧重于多个 3D 人从一个 RGB 图像中回归的问题。 现有方法主要遵循多阶段管道, 首先是在捆绑盒中检测人, 然后独立回归3D 体模模。 相反, 我们提议以一个阶段的方式将所有 3D 人( 包括 ROMP ) 的模件都以一个阶段的方式回归。 这种方法在概念上是简单的, 没有框框, 并且能够以端到端的方式学习每像素的表达方式。 我们的方法同时预测一个身体中心的热映和Mesh 参数映射, 它可以共同描述 3D 体模件在像素水平上的图。 相反, 我们建议用一个身体中心制导器将所有 3D 3D 体模子的参数都以一个阶段的方式回归。 这个方法在概念上简单简单简单化, 并且能够以最终到端的方式学习每个像素的表示。 我们的一阶段框架将摆脱复杂的多阶段进程, 并且更加坚固的封闭性。 与状态方法相比, ROMP 能够 共同描述像素水平 3D- 高压的多位模型 的模型, 的模型的模型 的模型的模型 的模型的模型 的模型 的模型 的模型 的模型的模型的模型的模型的模型的模型 的模型的模型的模型的模型的模型的模型的模型的模型的模型 。