Rare-object detection remains a challenging task in autonomous driving systems, particularly when relying solely on point cloud data. Although Vision-Language Models (VLMs) exhibit strong capabilities in image understanding, their potential to enhance 3D object detection through intelligent data mining has not been fully explored. This paper proposes a novel cross-modal framework that leverages 2D VLMs to identify and mine rare objects from driving scenes, thereby improving 3D object detection performance. Our approach synthesizes complementary techniques such as object detection, semantic feature extraction, dimensionality reduction, and multi-faceted outlier detection into a cohesive, explainable pipeline that systematically identifies rare but critical objects in driving scenes. By combining Isolation Forest and t-SNE-based outlier detection methods with concept-based filtering, the framework effectively identifies semantically meaningful rare objects. A key strength of this approach lies in its ability to extract and annotate targeted rare object concepts such as construction vehicles, motorcycles, and barriers. This substantially reduces the annotation burden and focuses only on the most valuable training samples. Experiments on the nuScenes dataset demonstrate that this concept-guided data mining strategy enhances the performance of 3D object detection models while utilizing only a fraction of the training data, with particularly notable improvements for challenging object categories such as trailers and bicycles compared with the same amount of random data. This finding has substantial implications for the efficient curation of datasets in safety-critical autonomous systems.


翻译:在自动驾驶系统中,稀有物体检测仍然是一项具有挑战性的任务,尤其是在仅依赖点云数据的情况下。尽管视觉语言模型在图像理解方面展现出强大的能力,但其通过智能数据挖掘来增强三维物体检测的潜力尚未得到充分探索。本文提出了一种新颖的跨模态框架,利用二维视觉语言模型从驾驶场景中识别并挖掘稀有物体,从而提升三维物体检测的性能。我们的方法将物体检测、语义特征提取、降维和多方面异常检测等互补技术综合为一个连贯且可解释的流程,系统地识别驾驶场景中稀有但关键的物体。通过将孤立森林和基于t-SNE的异常检测方法与基于概念的过滤相结合,该框架能够有效识别具有语义意义的稀有物体。该方法的一个关键优势在于其能够提取并标注目标稀有物体概念,如工程车辆、摩托车和障碍物。这显著减轻了标注负担,并仅关注最有价值的训练样本。在nuScenes数据集上的实验表明,这种概念引导的数据挖掘策略提升了三维物体检测模型的性能,同时仅使用一小部分训练数据,与同等数量的随机数据相比,在具有挑战性的物体类别(如拖车和自行车)上取得了尤为显著的改进。这一发现对于安全关键型自动驾驶系统中数据集的构建具有重要影响。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员