We introduce Cube Bench, a Rubik's-cube benchmark for evaluating spatial and sequential reasoning in multimodal large language models (MLLMs). The benchmark decomposes performance into five skills: (i) reconstructing cube faces from images and text, (ii) choosing the optimal next move, (iii) predicting the outcome of a candidate move without applying it, (iv) executing multi-step plans while recovering from mistakes, and (v) detecting and revising one's own errors. Using a shared set of scrambled cube states, identical prompts and parsers, and a single distance-to-solved metric, we compare recent MLLMs side by side as a function of scramble depth. Across seven MLLMs, accuracy drops sharply with depth; once a trajectory stalls or diverges, models rarely recover, and high face-reconstruction accuracy does not guarantee competent action selection or multi-step execution. A pronounced closed- vs open-source gap emerges: the strongest closed model leads on both single-step perception tasks and multi-step control tasks, while open-weight models cluster near chance on the hardest settings; yet even the best MLLM degrades at higher cube complexity. A simple self-correction via reflective thinking yields modest gains but can also introduce overthinking. Cube Bench offers a compact, reproducible probe of sequential spatial reasoning in MLLMs.


翻译:我们提出了Cube Bench,一个基于魔方的基准测试,用于评估多模态大语言模型(MLLMs)的空间与序列推理能力。该基准将性能分解为五项技能:(i)从图像和文本重建魔方面,(ii)选择最优下一步操作,(iii)在不实际执行的情况下预测候选操作的结果,(iv)执行多步计划并在过程中从错误中恢复,以及(v)检测并修正自身错误。通过使用一组共享的魔方打乱状态、相同的提示词和解析器,以及单一的距离求解度量,我们并行比较了近期多个MLLM在不同打乱深度下的表现。在七个MLLM中,准确率随打乱深度增加而急剧下降;一旦推理轨迹停滞或偏离,模型很少能恢复,且高的面重建准确率并不能保证有效的动作选择或多步执行能力。闭源模型与开源模型之间出现了显著差距:最强的闭源模型在单步感知任务和多步控制任务上均领先,而开源权重模型在最困难设置下的表现接近随机水平;然而,即使是最优的MLLM,在魔方复杂度升高时性能也会下降。简单的基于反思的自校正能带来有限的提升,但也可能引入过度思考。Cube Bench为MLLMs的序列空间推理能力提供了一个紧凑、可复现的探测工具。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员