Point clouds can be represented in many forms (views), typically, point-based sets, voxel-based cells or range-based images(i.e., panoramic view). The point-based view is geometrically accurate, but it is disordered, which makes it difficult to find local neighbors efficiently. The voxel-based view is regular, but sparse, and computation grows cubically when voxel resolution increases. The range-based view is regular and generally dense, however spherical projection makes physical dimensions distorted. Both voxel- and range-based views suffer from quantization loss, especially for voxels when facing large-scale scenes. In order to utilize different view's advantages and alleviate their own shortcomings in fine-grained segmentation task, we propose a novel range-point-voxel fusion network, namely RPVNet. In this network, we devise a deep fusion framework with multiple and mutual information interactions among these three views and propose a gated fusion module (termed as GFM), which can adaptively merge the three features based on concurrent inputs. Moreover, the proposed RPV interaction mechanism is highly efficient, and we summarize it into a more general formulation. By leveraging this efficient interaction and relatively lower voxel resolution, our method is also proved to be more efficient. Finally, we evaluated the proposed model on two large-scale datasets, i.e., SemanticKITTI and nuScenes, and it shows state-of-the-art performance on both of them. Note that, our method currently ranks 1st on SemanticKITTI leaderboard without any extra tricks.


翻译:圆点云可以以多种形式( 视图) 表示, 通常是以点为基础的星云, 通常是以点为基础的星座, 以oxell为基础的星座或以范围为基础的图像( 即全景 ) 。 基于点的观点是几何精确的, 但却是混乱的, 这使得很难找到本地邻居。 基于 voxel 的星云是正常的, 但稀少的, 当 voxel 分辨率增加时计算会以立方体的方式增长。 基于范围的观点是定期的, 并且一般是密集的, 但是球形的投影会扭曲物理维度。 无论是 voxel 或基于范围的观点都会受到四分化损失, 特别是对于面临大场景的 voxel 。 为了利用不同观点的优势, 并且减轻它们本身在细微分层分割任务中存在的缺点, 我们提出了一个新的范围- 点-vox 融合网络。 在这个网络中, 我们设计了一个深度和相互信息互动的深度框架, 并且提出了一个门形的组合模块( 称为GFMT ), 我们可以根据同时输入的三维特立方的三维, 。 此外, 的Sel 互动机制, 展示了我们所拟议的SePV 的更高效的系统, 和较高效的系统, 和较高效的系统, 的系统, 的模拟, 将显示为一种效率的系统, 和较高效的系统, 。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【图与几何深度学习】Graph and geometric deep learning,49页ppt
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员