Performing single image holistic understanding and 3D reconstruction is a central task in computer vision. This paper presents an integrated system that performs holistic image segmentation, object detection, instance segmentation, depth estimation, and object instance 3D reconstruction for indoor and outdoor scenes from a single RGB image. We name our system panoptic 3D parsing in which panoptic segmentation ("stuff" segmentation and "things" detection/segmentation) with 3D reconstruction is performed. We design a stage-wise system where a complete set of annotations is absent. Additionally, we present an end-to-end pipeline trained on a synthetic dataset with a full set of annotations. We show results on both indoor (3D-FRONT) and outdoor (COCO and Cityscapes) scenes. Our proposed panoptic 3D parsing framework points to a promising direction in computer vision. It can be applied to various applications, including autonomous driving, mapping, robotics, design, computer graphics, robotics, human-computer interaction, and augmented reality.


翻译:执行单一图像整体理解和3D重建是计算机愿景的一项核心任务。 本文展示了一个集成系统, 用于从一个 RGB 图像中进行整体图像分割、 对象探测、 试区分割、 深度估计 和对象实例 3D, 用于室内和室外场景的重建。 我们命名了我们的系统全光 3D 剖析, 用于3D 重建 的全光分割(“ 附加” 和“ 显示” 探测/ 分层 ) 。 我们设计了一个舞台系统, 缺少完整的说明。 此外, 我们展示了一个经过合成数据集培训的端对端管道, 配有全套说明。 我们在室内( 3D- FRONT) 和室外( CO和 Cityscovers) 场景上都展示了结果。 我们提议的全光 3D 剖析框架指向计算机愿景有希望的方向。 它可以应用于各种应用, 包括自主驱动、 制图、 机器人、 设计、 计算机图形、 机器人、 机器人、 人- 计算机互动 以及 增强现实 。

0
下载
关闭预览

相关内容

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。 物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。
Python图像处理,366页pdf,Image Operators Image Processing in Python
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Arxiv
11+阅读 · 2019年1月24日
VIP会员
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Top
微信扫码咨询专知VIP会员