While Multimodal Large Language Models (MLLMs) have achieved impressive performance on semantic tasks, their spatial intelligence--crucial for robust and grounded AI systems--remains underdeveloped. Existing benchmarks fall short of diagnosing this limitation: they either focus on overly simplified qualitative reasoning or rely on domain-specific indoor data, constrained by the lack of outdoor datasets with verifiable metric ground truth. To bridge this gap, we introduce a large-scale benchmark built from pedestrian-perspective videos captured with synchronized stereo cameras, LiDAR, and IMU/GPS sensors. This dataset provides metrically precise 3D information, enabling the automatic generation of spatial reasoning questions that span a hierarchical spectrum--from qualitative relational reasoning to quantitative metric and kinematic understanding. Evaluations reveal that the performance gains observed in structured indoor benchmarks vanish in open-world settings. Further analysis using synthetic abnormal scenes and blinding tests confirms that current MLLMs depend heavily on linguistic priors instead of grounded visual reasoning. Our benchmark thus provides a principled platform for diagnosing these limitations and advancing physically grounded spatial intelligence.


翻译:尽管多模态大语言模型(MLLMs)在语义任务上取得了令人瞩目的性能,但其对构建鲁棒且具身化的AI系统至关重要的空间智能仍发展不足。现有基准测试在诊断这一局限方面存在不足:它们要么关注过于简化的定性推理,要么依赖特定领域的室内数据,这受限于缺乏具有可验证度量真值的室外数据集。为弥补这一差距,我们引入了一个基于行人视角视频构建的大规模基准测试,这些视频通过同步立体相机、激光雷达和IMU/GPS传感器采集。该数据集提供度量精确的3D信息,支持自动生成涵盖层次化谱系的空间推理问题——从定性关系到定量度量及运动学理解。评估结果表明,在结构化室内基准测试中观察到的性能增益在开放世界场景中消失。进一步利用合成异常场景和遮蔽测试的分析证实,当前MLLMs严重依赖语言先验而非基于视觉的具身推理。因此,我们的基准测试为诊断这些局限性和推进物理基础的空间智能提供了原则性平台。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员