In this paper, we propose a similarity-aware fusion network (SAFNet) to adaptively fuse 2D images and 3D point clouds for 3D semantic segmentation. Existing fusion-based methods achieve remarkable performances by integrating information from multiple modalities. However, they heavily rely on the correspondence between 2D pixels and 3D points by projection and can only perform the information fusion in a fixed manner, and thus their performances cannot be easily migrated to a more realistic scenario where the collected data often lack strict pair-wise features for prediction. To address this, we employ a late fusion strategy where we first learn the geometric and contextual similarities between the input and back-projected (from 2D pixels) point clouds and utilize them to guide the fusion of two modalities to further exploit complementary information. Specifically, we employ a geometric similarity module (GSM) to directly compare the spatial coordinate distributions of pair-wise 3D neighborhoods, and a contextual similarity module (CSM) to aggregate and compare spatial contextual information of corresponding central points. The two proposed modules can effectively measure how much image features can help predictions, enabling the network to adaptively adjust the contributions of two modalities to the final prediction of each point. Experimental results on the ScanNetV2 benchmark demonstrate that SAFNet significantly outperforms existing state-of-the-art fusion-based approaches across various data integrity.


翻译:在本文中,我们提出一个类似感知聚合网络(SAFNet),以适应性地结合 2D 图像和 3D 点云云,用于 3D 语义分割; 现有基于聚合的方法通过整合多种模式的信息而取得显著的性能; 然而,它们严重依赖2D 像ls 和 3D 点之间的对应,通过投影进行匹配,只能以固定的方式进行信息融合,因此其性能不能轻易地迁移到更现实的情景中,即所收集的数据往往缺乏严格的对称功能来进行预测。 为了解决这个问题,我们采用了一种晚感融合战略,我们首先学习输入和后预测(来自 2D 像素) 点云的几何和背景相似性,并利用它们指导两种模式的融合,以进一步利用补充信息。 具体地说,我们使用一个地理相近度模块(GSMM)来直接比较双向3D 邻的空间协调分布,以及一个基于背景相似的模块(CSMM) 来汇总和比较相应的中央点的空间背景信息。 两个拟议模块可以有效地测量到多少图像特征特征特征能大大地帮助预测每个网络的预测,使网络的每个模型能够调整现有数据库。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
相关VIP内容
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员