Point cloud segmentation is central to autonomous driving and 3D scene understanding. While voxel- and point-based methods dominate recent research due to their compatibility with deep architectures and ability to capture fine-grained geometry, they often incur high computational cost, irregular memory access, and limited real-time efficiency. In contrast, range-view methods, though relatively underexplored - can leverage mature 2D semantic segmentation techniques for fast and accurate predictions. Motivated by the rapid progress in Visual Foundation Models (VFMs) for captioning, zero-shot recognition, and multimodal tasks, we investigate whether SAM2, the current state-of-the-art VFM for segmentation tasks, can serve as a strong backbone for LiDAR point cloud segmentation in the range view. We present , to our knowledge, the first range-view framework that adapts SAM2 to 3D segmentation, coupling efficient 2D feature extraction with standard projection/back-projection to operate on point clouds. To optimize SAM2 for range-view representations, we implement several architectural modifications to the encoder: (1) a novel module that emphasizes horizontal spatial dependencies inherent in LiDAR range images, (2) a customized configuration of tailored to the geometric properties of spherical projections, and (3) an adapted mechanism in the encoder backbone specifically designed to capture the unique spatial patterns and discontinuities present in range-view pseudo-images. Our approach achieves competitive performance on SemanticKITTI while benefiting from the speed, scalability, and deployment simplicity of 2D-centric pipelines. This work highlights the viability of VFMs as general-purpose backbones for 3D perception and opens a path toward unified, foundation-model-driven LiDAR segmentation. Results lets us conclude that range-view segmentation methods using VFMs leads to promising results.


翻译:点云分割是自动驾驶与三维场景理解的核心任务。近年来,基于体素和点的方法因其与深度学习架构的兼容性及捕捉细粒度几何特征的能力而主导研究,但这些方法通常存在计算成本高、内存访问不规则及实时效率受限等问题。相比之下,基于距离视图的方法虽相对探索不足,却可利用成熟的二维语义分割技术实现快速而准确的预测。受视觉基础模型在图像描述、零样本识别及多模态任务中快速进展的启发,本研究探讨当前分割任务中最先进的视觉基础模型SAM2是否可作为距离视图下激光雷达点云分割的强大骨干网络。据我们所知,我们提出了首个将SAM2适配于三维分割的距离视图框架,该框架结合高效的二维特征提取与标准投影/反投影操作以处理点云数据。为优化SAM2对距离视图表示的适应性,我们对编码器进行了多项架构改进:(1)设计了一个新颖模块,以强化激光雷达距离图像固有的水平空间依赖性;(2)针对球面投影的几何特性定制了适配配置;(3)在编码器骨干网络中引入专门设计的机制,以捕捉距离视图伪图像中独特的空间模式与不连续性。本方法在SemanticKITTI数据集上取得了具有竞争力的性能,同时受益于以二维为中心的流程在速度、可扩展性及部署简易性方面的优势。此项工作凸显了视觉基础模型作为三维感知通用骨干网络的可行性,并为基于统一基础模型的激光雷达分割开辟了路径。实验结果表明,采用视觉基础模型的距离视图分割方法能够取得具有前景的成果。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员