Understanding 3D scenes from a single image is fundamental to a wide variety of tasks, such as for robotics, motion planning, or augmented reality. Existing works in 3D perception from a single RGB image tend to focus on geometric reconstruction only, or geometric reconstruction with semantic segmentation or instance segmentation. Inspired by 2D panoptic segmentation, we propose to unify the tasks of geometric reconstruction, 3D semantic segmentation, and 3D instance segmentation into the task of panoptic 3D scene reconstruction - from a single RGB image, predicting the complete geometric reconstruction of the scene in the camera frustum of the image, along with semantic and instance segmentations. We thus propose a new approach for holistic 3D scene understanding from a single RGB image which learns to lift and propagate 2D features from an input image to a 3D volumetric scene representation. We demonstrate that this holistic view of joint scene reconstruction, semantic, and instance segmentation is beneficial over treating the tasks independently, thus outperforming alternative approaches.


翻译:从单一图像中了解 3D 场景对于各种各样的任务至关重要,例如机器人、运动规划或增强现实等。从单一 RGB 图像中现有三维场景的工程往往只侧重于几何重建,或以语义分割或实例分割法进行几何重建。受 2D 泛光分割法的启发,我们提议将几何重建、 3D 语义分割法和 3D 实例分割法的任务与全视 3D 场景重建任务(从单一 RGB 图像中产生,预测图像摄像断层中场场的完全几何重建,以及语义和实例分割法。因此,我们从单一 RGB 图像中提出一种全方位三维场景理解新办法,从输入图像中提升和传播二维地貌,到 3D 体积场展示法。我们证明这种对联合场景重建、 语义和实例分割法的整体观点有利于独立处理任务,从而优于其他方式。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
84+阅读 · 2021年1月7日
3D目标检测进展综述
专知会员服务
188+阅读 · 2020年4月24日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
53+阅读 · 2019年11月20日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
12+阅读 · 2020年2月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】PoseMap: 终生、多环境的3D激光雷达定位
泡泡机器人SLAM
6+阅读 · 2019年1月29日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
4+阅读 · 2019年8月7日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
VIP会员
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
12+阅读 · 2020年2月23日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
【泡泡一分钟】PoseMap: 终生、多环境的3D激光雷达定位
泡泡机器人SLAM
6+阅读 · 2019年1月29日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员