Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction without using any 3D annotations. The key idea of our approach is to design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics with only 2D labeling which can be either manual or machine-generated. Our key technical innovation is to leverage differentiable rendering of color and semantics to bridge 2D observations and unknown 3D space, using the observed RGB images and 2D semantics as supervision, respectively. We additionally develop a learning pipeline and corresponding method to enable learning from imperfect predicted 2D labels, which could be additionally acquired by synthesizing in an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision loop for semantics. In this work, we propose an end-to-end trainable solution jointly addressing geometry completion, colorization, and semantic mapping from limited RGB-D images, without relying on any 3D ground-truth information. Our method achieves state-of-the-art performance of semantic scene reconstruction on two large-scale benchmark datasets MatterPort3D and ScanNet, surpasses baselines even with costly 3D annotations. To our knowledge, our method is also the first 2D-driven method addressing completion and semantic segmentation of real-world 3D scans.


翻译:大多数用于 3D 室内空间全面语义建模的深度学习方法需要昂贵的 3D 领域的密集注释。在这项工作中,我们探索了一个中心的 3D 场景建模任务,即在不使用任何 3D 注释的情况下进行语义场景重建。我们方法的关键思想是设计一个可训练的模型,它同时利用了不完整的 3D 重建和相应的源 RGB-D 图像,将跨域特征融合到体积嵌入中,使用仅具有 2D 标记的完整 3D 几何、颜色和语义。我们的关键技术创新是利用可微分渲染的颜色和语义来桥接 2D 观测和未知的 3D 空间,分别使用观测到的 RGB 图像和 2D 语义作为监督。我们还开发了一个学习流程和相应的方法,使其能够从不完善的预测 2D 标签中学习,并通过合成不同的虚拟训练视图来进一步获取机器生成的 2D 标签,从而实现更高效的自我监督循环以实现语义。在这项工作中,我们提出了一种端到端可训练的解决方案,联合处理几何完成、上色和语义映射,无需依赖任何 3D 真值信息就能从有限的 RGB-D 图像中实现。我们的方法在两个大规模基准数据集 MatterPort3D 和 ScanNet 上实现了语义场景重建的最新性能,即使是与代价高昂的 3D 注释相比,也超越了基线。据我们所知,我们的方法也是第一个处理真实 3D 扫描完成和语义分割的 2D 驱动方法。

0
下载
关闭预览

相关内容

【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
26+阅读 · 2021年3月7日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
【泡泡一分钟】用于视角可变重定位的语义地图构建
泡泡机器人SLAM
19+阅读 · 2019年10月21日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月6日
VIP会员
相关VIP内容
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
26+阅读 · 2021年3月7日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员