3D object detection is fundamental for safe and robust intelligent transportation systems. Current multi-modal 3D object detectors often rely on complex architectures and training strategies to achieve higher detection accuracy. However, these methods heavily rely on the LiDAR sensor so that they suffer from large performance drops when LiDAR is absent, which compromises the robustness and safety of autonomous systems in practical scenarios. Moreover, existing multi-modal detectors face difficulties in deployment on diverse hardware platforms, such as NPUs and FPGAs, due to their reliance on 3D sparse convolution operators, which are primarily optimized for NVIDIA GPUs. To address these challenges, we reconsider the role of LiDAR in the camera-LiDAR fusion paradigm and introduce a novel multi-modal 3D detector, LiteFusion. Instead of treating LiDAR point clouds as an independent modality with a separate feature extraction backbone, LiteFusion utilizes LiDAR data as a complementary source of geometric information to enhance camera-based detection. This straightforward approach completely eliminates the reliance on a 3D backbone, making the method highly deployment-friendly. Specifically, LiteFusion integrates complementary features from LiDAR points into image features within a quaternion space, where the orthogonal constraints are well-preserved during network training. This helps model domain-specific relations across modalities, yielding a compact cross-modal embedding. Experiments on the nuScenes dataset show that LiteFusion improves the baseline vision-based detector by +20.4% mAP and +19.7% NDS with a minimal increase in parameters (1.1%) without using dedicated LiDAR encoders. Notably, even in the absence of LiDAR input, LiteFusion maintains strong results , highlighting its favorable robustness and effectiveness across diverse fusion paradigms and deployment scenarios.


翻译:三维目标检测是构建安全、鲁棒的智能交通系统的基础。当前的多模态三维目标检测器通常依赖复杂的架构和训练策略以实现更高的检测精度。然而,这些方法严重依赖激光雷达传感器,因此在激光雷达缺失时性能会大幅下降,这在实际场景中损害了自动驾驶系统的鲁棒性与安全性。此外,现有的多模态检测器由于依赖主要针对NVIDIA GPU优化的三维稀疏卷积算子,难以部署在NPU和FPGA等多种硬件平台上。为应对这些挑战,我们重新思考了激光雷达在相机-激光雷达融合范式中的作用,并提出了一种新颖的多模态三维检测器LiteFusion。LiteFusion并非将激光雷达点云视为具有独立特征提取骨干的独立模态,而是利用激光雷达数据作为几何信息的补充来源,以增强基于相机的检测。这种简洁的方法完全消除了对三维骨干网络的依赖,使得该方法具有高度的部署友好性。具体而言,LiteFusion在四元数空间中将激光雷达点的互补特征集成到图像特征中,该空间的正交约束在网络训练过程中得以良好保持。这有助于建模跨模态的领域特定关系,从而产生紧凑的跨模态嵌入。在nuScenes数据集上的实验表明,LiteFusion在不使用专用激光雷达编码器的情况下,仅以极小的参数量增加(1.1%),就将基线视觉检测器的平均精度(mAP)提升了+20.4%,NDS指标提升了+19.7%。值得注意的是,即使在缺乏激光雷达输入的情况下,LiteFusion仍能保持强劲的性能,突显了其在多种融合范式和部署场景中优异的鲁棒性与有效性。

0
下载
关闭预览

相关内容

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员