Large Language Model (LLM) agents, while proficient in the digital realm, face a significant gap in physical-world deployment due to the challenge of forming and maintaining a robust spatial mental model. We identify three core cognitive challenges hindering this transition: spatial reasoning, long-horizon state tracking via mental simulation, and active exploration under partial observation. To isolate and evaluate these faculties, we introduce CubeBench, a novel generative benchmark centered on the Rubik's Cube. CubeBench uses a three-tiered diagnostic framework that progressively assesses agent capabilities, from foundational state tracking with full symbolic information to active exploration with only partial visual data. Our experiments on leading LLMs reveal critical limitations, including a uniform 0.00% pass rate on all long-horizon tasks, exposing a fundamental failure in long-term planning. We also propose a diagnostic framework to isolate these cognitive bottlenecks by providing external solver tools. By analyzing the failure modes, we provide key insights to guide the development of more physically-grounded intelligent agents.


翻译:大型语言模型(LLM)智能体虽然在数字领域表现出色,但由于难以形成并维持稳健的空间心智模型,其在物理世界中的部署仍存在显著差距。我们识别了阻碍这一过渡的三个核心认知挑战:空间推理、通过心智模拟进行长程状态追踪,以及在部分观测下的主动探索。为分离并评估这些能力,我们提出了CubeBench——一个以魔方为中心的新型生成式基准测试。CubeBench采用三层诊断框架,逐步评估智能体的能力:从具备完整符号信息的基础状态追踪,到仅基于部分视觉数据的主动探索。我们对主流LLM的实验揭示了关键局限,包括在所有长程任务上均为0.00%的通过率,暴露了其在长期规划方面的根本性缺陷。我们还提出了一种诊断框架,通过提供外部求解工具来分离这些认知瓶颈。通过分析失败模式,我们为开发更具物理现实基础的智能智能体提供了关键见解。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员