While Multimodal Large Language Models (MLLMs) have exhibited remarkable general intelligence across diverse domains, their potential in low-altitude applications dominated by Unmanned Aerial Vehicles (UAVs) remains largely underexplored. Existing MLLM benchmarks rarely cover the unique challenges of low-altitude scenarios, while UAV-related evaluations mainly focus on specific tasks such as localization or navigation, without a unified evaluation of MLLMs'general intelligence. To bridge this gap, we present MM-UAVBench, a comprehensive benchmark that systematically evaluates MLLMs across three core capability dimensions-perception, cognition, and planning-in low-altitude UAV scenarios. MM-UAVBench comprises 19 sub-tasks with over 5.7K manually annotated questions, all derived from real-world UAV data collected from public datasets. Extensive experiments on 16 open-source and proprietary MLLMs reveal that current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios. Our analyses further uncover critical bottlenecks such as spatial bias and multi-view understanding that hinder the effective deployment of MLLMs in UAV scenarios. We hope MM-UAVBench will foster future research on robust and reliable MLLMs for real-world UAV intelligence.


翻译:尽管多模态大语言模型(MLLMs)在多个领域展现出卓越的通用智能,但其在以无人机(UAV)为主导的低空应用场景中的潜力仍未得到充分探索。现有的MLLM基准测试鲜少涵盖低空场景特有的挑战,而无人机相关评估主要集中于定位或导航等特定任务,缺乏对MLLM通用智能的统一评估。为填补这一空白,我们提出了MM-UAVBench——一个在低空无人机场景中,系统评估MLLMs在感知、认知与规划三大核心能力维度的综合性基准。MM-UAVBench包含19个子任务,涵盖超过5.7K个人工标注的问题,所有问题均源自从公开数据集中收集的真实无人机数据。对16个开源及专有MLLMs的广泛实验表明,当前模型难以适应低空场景复杂的视觉与认知需求。我们的分析进一步揭示了空间偏差与多视角理解等关键瓶颈,这些因素阻碍了MLLMs在无人机场景中的有效部署。我们希望MM-UAVBench能够推动面向现实世界无人机智能的鲁棒可靠MLLMs的未来研究。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 5月18日
可解释人工智能中的大语言模型:全面综述
专知会员服务
52+阅读 · 4月2日
无人机集群、蜂群与蜂群算法
无人机
94+阅读 · 2018年9月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员