The advent of Unified Multimodal Models (UMMs) signals a paradigm shift in artificial intelligence, moving from passive perception to active, cross-modal generation. Despite their unprecedented ability to synthesize information, a critical gap persists in evaluation: existing benchmarks primarily assess discriminative understanding or unconstrained image generation separately, failing to measure the integrated cognitive process of generative reasoning. To bridge this gap, we propose that geometric construction provides an ideal testbed as it inherently demands a fusion of language comprehension and precise visual generation. We introduce GGBench, a benchmark designed specifically to evaluate geometric generative reasoning. It provides a comprehensive framework for systematically diagnosing a model's ability to not only understand and reason but to actively construct a solution, thereby setting a more rigorous standard for the next generation of intelligent systems. Project website: https://opendatalab-raiser.github.io/GGBench/.


翻译:统一多模态模型(UMMs)的出现标志着人工智能领域的一次范式转变,从被动感知转向主动的跨模态生成。尽管这些模型在信息合成方面展现出前所未有的能力,但在评估方面仍存在一个关键缺口:现有基准主要分别评估判别式理解或无约束图像生成,未能衡量生成推理这一整合的认知过程。为填补这一缺口,我们提出几何构造提供了一个理想的测试平台,因为它本质上要求语言理解与精确视觉生成的融合。我们引入了GGBench,这是一个专门设计用于评估几何生成推理的基准。它提供了一个全面的框架,用于系统性地诊断模型不仅理解和推理,还能主动构建解决方案的能力,从而为下一代智能系统设定了更严格的标准。项目网站:https://opendatalab-raiser.github.io/GGBench/。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员