This paper focuses on the regression of multiple 3D people from a single RGB image. Existing approaches predominantly follow a multi-stage pipeline, which first detects people with the bounding boxes and then regresses their 3D body meshes. In contrast, we propose to Regress all meshes in a One-stage fashion for Multiple 3D People (termed ROMP), which is conceptually simple, bounding box-free, and able to learn per-pixel representation in an end-to-end manner. Our method simultaneously predicts a Body Center heatmap and a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel level. Through a body-center-guided sampling process, the body mesh parameters of all people in the image can be easily extracted from the Mesh Parameter map. Equipped with such a fine-grained representation, our one-stage framework is free of the complex multi-stage process and more robust to occlusion. Compared with the state-of-the-art methods, ROMP achieves superior performance on the challenging multi-person/occlusion benchmarks, including 3DPW, CMU Panoptic, and 3DOH50K. Experiments on crowded/occluded datasets demonstrate the robustness under various types of occlusion. It is also worth noting that our released demo code ( https://github.com/Arthur151/ROMP ) is the first real-time (over 30 FPS) implementation of monocular multi-person 3D mesh regression to date.


翻译:本文侧重于多个 3D 人从一个 RGB 图像中回归的问题。 现有方法主要遵循多阶段管道, 首先是用捆绑框检测人, 然后是折叠3D 体模模模。 相反, 我们提议以一个阶段的方式将所有3D 人( 包括 ROMP ) 的体模参数从Mesh Parame 地图中解析出来。 这个模块在概念上很简单, 不带框框, 能够以端到端的方式学习每个像素的表达方式。 我们的方法同时预测一个身体中心的热映射和Mesh Parame 地图, 它可以共同描述像素水平上的 3D 体模像。 通过一个 体中心- 制导的取样程序, 图像中的所有人的体模样参数都可以很容易地从 Mesh Parameter 地图中提取出来。 以如此精细的缩放的表示方式, 我们的一阶段框架没有复杂的多阶段进程, 并且更坚固的加固。 与州- 方法相比, ROMP 在具有挑战性 3- CML/ CML 数据 的深度 的深度 的 3- cloisal- cloveal 标准下, 3- clo, 3- mission 3- mission 。

1
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
专知会员服务
55+阅读 · 2021年5月17日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ECCV 2020 目标跟踪论文大盘点
极市平台
7+阅读 · 2020年10月4日
“CVPR 2020 接受论文列表 1470篇论文都在这了
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
5+阅读 · 2018年12月18日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
VIP会员
相关资讯
ECCV 2020 目标跟踪论文大盘点
极市平台
7+阅读 · 2020年10月4日
“CVPR 2020 接受论文列表 1470篇论文都在这了
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员