激光雷达和相机是自动驾驶中可用于3D语义分割的两种模态。由于激光点不足,流行的仅用激光雷达的方法在小而远的目标上存在严重的分割问题,而鲁棒的多模态解决方案尚未得到充分探索,**本文研究了三个关键的内在困难:模态异质性、有限的传感器视场交叉点和多模态数据增强。为此,提出一种联合模态内特征提取和模态间特征融合的多模态3D语义分割模型(MSeg3D)。**MSeg3D中的多模态融合包括所有可见点上基于几何的特征融合GF-Phase、跨模态的特征补全和基于语义的特征融合SF-Phase。通过对LiDAR点云和多相机图像分别应用非对称变换来重新激活多模态数据增强,这有利于通过多样化的增强变换进行模型训练。MSeg3D在nuScenes, Waymo和SemanticKITTI数据集上取得了最先进的结果。在故障多摄像机输入和多帧点云输入下,MSeg3D仍然表现出鲁棒性,并改善了LiDARonly基线。我们的代码通过https: //github.com/jialeli1/lidarseg3d公开。