StereoScene：基于 BEV 的立体匹配增强 3D 语义场景补全 (StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion) - 专知论文

会员服务 ·

0

语义场景补全 · 立体匹配 · 3D · 模糊性 · 传感 ·

2023 年 3 月 24 日

StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

翻译：StereoScene：基于 BEV 的立体匹配增强 3D 语义场景补全

Bohan Li,Yasheng Sun,Xin Jin,Wenjun Zeng,Zheng Zhu,Xiaoefeng Wang,Yunpeng Zhang,James Okae,Hang Xiao,Dalong Du

3D semantic scene completion (SSC) is an ill-posed task that requires inferring a dense 3D scene from incomplete observations. Previous methods either explicitly incorporate 3D geometric input or rely on learnt 3D prior behind monocular RGB images. However, 3D sensors such as LiDAR are expensive and intrusive while monocular cameras face challenges in modeling precise geometry due to the inherent ambiguity. In this work, we propose StereoScene for 3D Semantic Scene Completion (SSC), which explores taking full advantage of light-weight camera inputs without resorting to any external 3D sensors. Our key insight is to leverage stereo matching to resolve geometric ambiguity. To improve its robustness in unmatched areas, we introduce bird's-eye-view (BEV) representation to inspire hallucination ability with rich context information. On top of the stereo and BEV representations, a mutual interactive aggregation (MIA) module is carefully devised to fully unleash their power. Specifically, a Bi-directional Interaction Transformer (BIT) augmented with confidence re-weighting is used to encourage reliable prediction through mutual guidance while a Dual Volume Aggregation (DVA) module is designed to facilitate complementary aggregation. Experimental results on SemanticKITTI demonstrate that the proposed StereoScene outperforms the state-of-the-art camera-based methods by a large margin with a relative improvement of 26.9% in geometry and 38.6% in semantic.

翻译：3D 语义场景补全（SSC）是一个需要从不完全的观测中推断出稠密 3D 场景的不适定问题。以往的方法要么明确地包含 3D 几何输入，要么依赖于在单眼 RGB 图像背后学习的 3D 先验。然而，3D 传感器（如 LiDAR）昂贵且具有侵入性，而单眼摄像头由于固有的模糊性面临模建精确几何的挑战。在本文中，我们提出了 StereoScene 用于 3D 语义场景补全（SSC）。该方法通过充分利用轻量级相机输入，而不需要使用任何外部 3D 传感器。我们的关键见解是利用立体匹配来解决几何模糊性。为了提高其在未匹配区域中的稳健性，我们引入了鸟瞰图（BEV）表示法，以激发具有丰富环境信息的虚构能力。在立体和 BEV 表示之上，谨慎设计了一个相互交互聚合（MIA）模块，充分释放了它们的能力。具体而言，使用双向交互变换器（BIT）增强置信度重新加权，以鼓励通过相互引导来可靠地预测，同时设计了一个双体积聚合（DVA）模块，以促进互补聚合。在 SemanticKITTI 上的实验结果表明，StereoScene 在几何和语义上相对于基于相机的现有方法提高了26.9％和38.6％的性能。

0

相关内容

语义场景补全

语义场景补全

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

62+阅读 · 2022年11月27日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【论文|知识图谱】小样本知识图谱补全，Few-Shot Knowledge Graph Completion

【论文|知识图谱】小样本知识图谱补全，Few-Shot Knowledge Graph Completion

专知会员服务

121+阅读 · 2019年11月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

跨域推荐最新前沿工作进展汇总

跨域推荐最新前沿工作进展汇总

机器学习与推荐算法

0+阅读 · 2022年9月29日

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

CVPR2019 | Stereo R-CNN 3D 目标检测

CVPR2019 | Stereo R-CNN 3D 目标检测

极市平台

27+阅读 · 2019年3月10日

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

泡泡机器人SLAM

25+阅读 · 2019年1月17日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

锂离子电池负极材料二硫化钼电化学反应行为的原位透射电镜研究

国家自然科学基金

0+阅读 · 2015年12月31日

原位同步辐射技术研究金属纳米团簇生长和表面修饰的动力学过程

国家自然科学基金

0+阅读 · 2014年12月31日

微弧氧化陶瓷层的断裂行为研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型金属-有机骨架基Z型光催化产氢材料的合成及性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

设计合成Au@Cu2O表面等离子体光催化材料及催化性能研究

国家自然科学基金

0+阅读 · 2012年12月31日

X射线干涉光刻和谱学方法研制金属等离子太阳能电池

国家自然科学基金

0+阅读 · 2012年12月31日

CD40信号促进脑胶质瘤干细胞向内皮细胞分化形成肿瘤新生血管的作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

A(B'1/3B''2/3)O3型复合钙钛矿电子结构与本征介电性能的第一性原理研究

国家自然科学基金

0+阅读 · 2011年12月31日

AB2O4(B=Al、Ga、In)基尖晶石型可见光催化剂结构和性能的理论与实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs

Arxiv

0+阅读 · 2023年5月15日

CMSG Cross-Media Semantic-Graph Feature Matching Algorithm for Autonomous Vehicle Relocalization

Arxiv

0+阅读 · 2023年5月15日

Zero-shot Item-based Recommendation via Multi-task Product Knowledge Graph Pre-Training

Arxiv

0+阅读 · 2023年5月12日

PaTeCon: A Pattern-Based Temporal Constraint Mining Method for Conflict Detection on Knowledge Graphs

Arxiv

0+阅读 · 2023年5月12日

Multi-modal Multi-level Fusion for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月11日

A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction Framework Based on Panoramic Stereo Images for a Trimming Robot

Arxiv

0+阅读 · 2023年5月10日

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

VIP会员

文章信息

相关主题

语义场景补全

相关VIP内容

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

62+阅读 · 2022年11月27日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【论文|知识图谱】小样本知识图谱补全，Few-Shot Knowledge Graph Completion

【论文|知识图谱】小样本知识图谱补全，Few-Shot Knowledge Graph Completion

专知会员服务

121+阅读 · 2019年11月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

跨域推荐最新前沿工作进展汇总

跨域推荐最新前沿工作进展汇总

机器学习与推荐算法

0+阅读 · 2022年9月29日

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020

专知

82+阅读 · 2020年2月13日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

CVPR2019 | Stereo R-CNN 3D 目标检测

CVPR2019 | Stereo R-CNN 3D 目标检测

极市平台

27+阅读 · 2019年3月10日

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

泡泡机器人SLAM

25+阅读 · 2019年1月17日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

相关论文

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs

Arxiv

0+阅读 · 2023年5月15日

CMSG Cross-Media Semantic-Graph Feature Matching Algorithm for Autonomous Vehicle Relocalization

Arxiv

0+阅读 · 2023年5月15日

Zero-shot Item-based Recommendation via Multi-task Product Knowledge Graph Pre-Training

Arxiv

0+阅读 · 2023年5月12日

PaTeCon: A Pattern-Based Temporal Constraint Mining Method for Conflict Detection on Knowledge Graphs

Arxiv

0+阅读 · 2023年5月12日

Multi-modal Multi-level Fusion for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月11日

A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction Framework Based on Panoramic Stereo Images for a Trimming Robot

Arxiv

0+阅读 · 2023年5月10日

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

相关基金

锂离子电池负极材料二硫化钼电化学反应行为的原位透射电镜研究

国家自然科学基金

0+阅读 · 2015年12月31日

原位同步辐射技术研究金属纳米团簇生长和表面修饰的动力学过程

国家自然科学基金

0+阅读 · 2014年12月31日

微弧氧化陶瓷层的断裂行为研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型金属-有机骨架基Z型光催化产氢材料的合成及性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

设计合成Au@Cu2O表面等离子体光催化材料及催化性能研究

国家自然科学基金

0+阅读 · 2012年12月31日

X射线干涉光刻和谱学方法研制金属等离子太阳能电池

国家自然科学基金

0+阅读 · 2012年12月31日

CD40信号促进脑胶质瘤干细胞向内皮细胞分化形成肿瘤新生血管的作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

A(B'1/3B''2/3)O3型复合钙钛矿电子结构与本征介电性能的第一性原理研究

国家自然科学基金

0+阅读 · 2011年12月31日

AB2O4(B=Al、Ga、In)基尖晶石型可见光催化剂结构和性能的理论与实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于边缘点的折反射图像立体匹配与三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员