Multimodal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, the very capability that anchors artificial general intelligence in the physical world. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models (GPT, Gemini, Grok, Seed, Qwen, and Intern) stand on the path toward spatial intelligence. We thus propose EASI for holistic Evaluation of multimodAl LLMs on Spatial Intelligence. EASI conceptualizes a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and a standardized protocol for the fair evaluation of state-of-the-art proprietary and open-source models. In this report, we conduct the study across eight key benchmarks, at a cost exceeding ten billion total tokens. Our empirical study then reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence (SI), yet (2) still falls short of human performance significantly across a broad spectrum of SI-tasks. Moreover, we (3) show that SI-tasks expose greater model capability deficiency than non-SI tasks, to the extent that (4) proprietary models do not exhibit a decisive advantage when facing the most difficult ones. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans, yet fail even the most advanced multimodal models.


翻译:近年来,多模态模型取得了显著进展。然而,它们在空间理解与推理方面仍存在明显局限,而这一能力正是人工智能在物理世界中实现通用智能的基石。随着近期据称迄今最强大的人工智能模型GPT-5的发布,审视主流模型(GPT、Gemini、Grok、Seed、Qwen及Intern)在空间智能发展路径上的现状恰逢其时。为此,我们提出EASI框架,用于对多模态大语言模型的空间智能进行全面评估。EASI构建了一个统一现有基准的空间任务分类体系,并制定了标准化协议以公平评估最先进的专有模型与开源模型。本报告基于八个关键基准展开研究,消耗总token量超过百亿。实证研究表明:(1)GPT-5在空间智能(SI)方面展现出前所未有的强大能力,但(2)在广泛SI任务范畴内仍显著落后于人类表现。此外,我们发现(3)与非SI任务相比,SI任务更易暴露模型能力缺陷,其程度达到(4)专有模型在面对最困难任务时并未展现出决定性优势。同时,我们通过对多样化场景的定性评估发现,这些对人类而言直观的场景,却连最先进的多模态模型也无法成功应对。

0
下载
关闭预览

相关内容

【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
496+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员