Multimodal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, the very capability that anchors artificial general intelligence in the physical world. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models (GPT, Gemini, Grok, Seed, Qwen, and Intern) stand on the path toward spatial intelligence (SI). We thus propose EASI for holistic Evaluation of multimodAl LLMs on Spatial Intelligence. EASI conceptualizes a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and a growing collection of newly curated ones, enabling systematic evaluation of state-of-the-art models. In this report, we conduct the study across eight key benchmarks, at a cost exceeding ten billion total tokens. Our empirical study then reveals that (1) GPT-5 demonstrates unprecedented strength in SI, yet (2) still falls short of human performance significantly across a broad spectrum of SI-tasks. Moreover, we (3) show that SI-tasks expose greater model capability deficiency than non-SI tasks, to the extent that (4) proprietary models do not exhibit a decisive advantage when facing the most difficult ones. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans, yet fail the most advanced multimodal models. EASI is an ongoing community effort: we have open-sourced the EASI codebase that provides a one-stop and reproducible solution with standardized interfaces, integrated protocols and prompts that significantly reduce the friction of configuring and running multiple benchmarks; we have also launched an accompanying EASI leaderboard to provide a continually updated snapshot of model performance across the full SI spectrum, accelerating collective progress toward robust SI.


翻译:近年来,多模态模型取得了显著进展。然而,它们在空间理解与推理方面仍存在明显局限,而这正是人工智能在物理世界中实现通用智能的核心能力。随着近期据称迄今最强大的AI模型GPT-5的发布,审视主流模型(GPT、Gemini、Grok、Seed、Qwen及Intern)在通往空间智能道路上的现状恰逢其时。为此,我们提出EASI框架,用于对多模态大语言模型的空间智能进行全面评估。EASI构建了一个统一现有基准与持续新增定制任务的空间任务分类体系,实现了对前沿模型的系统性评测。本报告基于八个关键基准开展研究,消耗总计算量超过百亿token。实证研究表明:(1)GPT-5在空间智能方面展现出前所未有的强大能力,但(2)在广泛的空间智能任务谱系中仍显著落后于人类水平。此外,我们(3)揭示空间智能任务比非空间任务暴露出更大的模型能力缺陷,以至于(4)面对最困难任务时,闭源模型并未展现决定性优势。同时,我们针对人类直觉可解而最先进多模态模型却失败的多样化场景开展了定性评估。EASI是持续发展的社区项目:我们已开源提供一站式可复现解决方案的代码库,其标准化接口、集成协议与提示模板显著降低了多基准配置与运行的复杂度;我们还同步推出了EASI排行榜,持续更新模型在全谱系空间智能任务上的性能快照,加速推动稳健空间智能的集体进步。

0
下载
关闭预览

相关内容

【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
496+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员