While Multimodal Large Language Models (MLLMs) have achieved impressive performance on semantic tasks, their spatial intelligence--crucial for robust and grounded AI systems--remains underdeveloped. Existing benchmarks fall short of diagnosing this limitation: they either focus on overly simplified qualitative reasoning or rely on domain-specific indoor data, constrained by the lack of outdoor datasets with verifiable metric ground truth. To bridge this gap, we introduce a large-scale benchmark built from pedestrian-perspective videos captured with synchronized stereo cameras, LiDAR, and IMU/GPS sensors. This dataset provides metrically precise 3D information, enabling the automatic generation of spatial reasoning questions that span a hierarchical spectrum--from qualitative relational reasoning to quantitative metric and kinematic understanding. Evaluations reveal that the performance gains observed in structured indoor benchmarks vanish in open-world settings. Further analysis using synthetic abnormal scenes and blinding tests confirms that current MLLMs depend heavily on linguistic priors instead of grounded visual reasoning. Our benchmark thus provides a principled platform for diagnosing these limitations and advancing physically grounded spatial intelligence.


翻译:尽管多模态大语言模型(MLLMs)在语义任务上取得了令人瞩目的性能,但其对构建稳健且具身化人工智能系统至关重要的空间智能仍显不足。现有基准测试在诊断这一局限性方面存在缺陷:它们要么关注过于简化的定性推理,要么依赖特定领域的室内数据,这主要受限于缺乏具有可验证度量真值的室外数据集。为填补这一空白,我们引入了一个基于行人视角视频构建的大规模基准测试,这些视频通过同步立体相机、激光雷达以及IMU/GPS传感器采集。该数据集提供了度量精确的3D信息,使得能够自动生成涵盖层次化谱系的空间推理问题——从定性关系到定量度量乃至运动学理解。评估结果表明,在结构化室内基准测试中观察到的性能增益在开放世界场景中消失殆尽。通过使用合成异常场景和遮蔽测试的进一步分析证实,当前MLLMs严重依赖语言先验而非基于视觉的具身推理。因此,我们的基准测试为诊断这些局限性并推进物理具身化的空间智能发展提供了一个系统性平台。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
32+阅读 · 5月18日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员