Autonomous robotic platforms are playing a growing role across the emergency services sector, supporting missions such as search and rescue operations in disaster zones and reconnaissance. However, traditional red-green-blue (RGB) detection pipelines struggle in low-light environments, and thermal-based systems lack color and texture information. To overcome these limitations, we present an adaptive framework that fuses RGB and long-wave infrared (LWIR) video streams at multiple fusion ratios and dynamically selects the optimal detection model for each illumination condition. We trained 33 You Only Look Once (YOLO) models on over 22,000 annotated images spanning three light levels: no-light (<10 lux), dim-light (10-1000 lux), and full-light (>1000 lux). To integrate both modalities, fusion was performed by blending aligned RGB and LWIR frames at eleven ratios, from full RGB (100/0) to full LWIR (0/100) in 10% increments. Evaluation showed that the best full-light model (80/20 RGB-LWIR) and dim-light model (90/10 fusion) achieved 92.8% and 92.0% mean confidence; both significantly outperformed the YOLOv5 nano (YOLOv5n) and YOLOv11 nano (YOLOv11n) baselines. Under no-light conditions, the top 40/60 fusion reached 71.0%, exceeding baselines though not statistically significant. Adaptive RGB-LWIR fusion improved detection confidence and reliability across all illumination conditions, enhancing autonomous robotic vision performance.


翻译:自主机器人平台在应急服务领域正发挥着日益重要的作用,支持着灾区搜救行动和侦察等任务。然而,传统的红绿蓝(RGB)检测流程在低光照环境中表现不佳,而基于热成像的系统则缺乏颜色和纹理信息。为克服这些限制,我们提出了一种自适应框架,该框架以多种融合比例融合RGB与长波红外(LWIR)视频流,并针对每种光照条件动态选择最优检测模型。我们在超过22,000张标注图像上训练了33个You Only Look Once(YOLO)模型,这些图像涵盖三种光照水平:无光(<10勒克斯)、微光(10-1000勒克斯)和全光(>1000勒克斯)。为实现两种模态的融合,通过对齐的RGB帧与LWIR帧以十一个比例进行混合完成融合,比例范围从全RGB(100/0)到全LWIR(0/100),以10%为增量。评估结果表明,最佳全光模型(80/20 RGB-LWIR融合)和最佳微光模型(90/10融合)分别达到了92.8%和92.0%的平均置信度;两者均显著优于YOLOv5 nano(YOLOv5n)和YOLOv11 nano(YOLOv11n)基线模型。在无光条件下,最优的40/60融合模型达到了71.0%的置信度,虽无统计学显著性,但仍超越了基线。自适应RGB-LWIR融合在所有光照条件下均提升了检测置信度与可靠性,从而增强了自主机器人视觉系统的性能。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员