The rapid progress of Multimodal Large Language Models (MLLMs) has unlocked the potential for enhanced 3D scene understanding and spatial reasoning. However, existing approaches often rely on pre-constructed 3D representations or off-the-shelf reconstruction pipelines, which constrain scalability and real-world applicability. A recent line of work explores learning spatial reasoning directly from multi-view images, enabling Vision-Language Models (VLMs) to understand 3D scenes without explicit 3D reconstructions. Nevertheless, key challenges that frequently arise in real-world environments, such as partial visibility, occlusion, and low-overlap conditions that require spatial reasoning from fragmented visual cues, remain under-explored. To address these limitations, we propose a scalable multi-view data generation and annotation pipeline that constructs realistic spatial reasoning QAs, resulting in SpatialMosaic, a comprehensive instruction-tuning dataset featuring 2M QA pairs. We further introduce SpatialMosaic-Bench, a challenging benchmark for evaluating multi-view spatial reasoning under realistic and challenging scenarios, consisting of 1M QA pairs across 6 tasks. In addition, we present SpatialMosaicVLM, a hybrid framework that integrates 3D reconstruction models as geometry encoders within VLMs for robust spatial reasoning. Extensive experiments demonstrate that our proposed dataset and VQA tasks effectively enhance spatial reasoning under challenging multi-view conditions, validating the effectiveness of our data generation pipeline in constructing realistic and diverse QA pairs. Code and dataset will be available soon.


翻译:多模态大语言模型(MLLMs)的快速发展为增强三维场景理解与空间推理能力开辟了潜力。然而,现有方法通常依赖于预先构建的三维表征或现成的重建流程,这限制了其可扩展性与实际应用性。近期一系列工作探索直接从多视角图像中学习空间推理,使视觉语言模型(VLMs)能够在无需显式三维重建的情况下理解三维场景。尽管如此,现实环境中频繁出现的关键挑战——例如部分可见性、遮挡以及需要从碎片化视觉线索进行空间推理的低重叠条件——仍未得到充分探索。为应对这些局限,我们提出了一种可扩展的多视角数据生成与标注流程,用于构建真实的空间推理问答对,从而产生了SpatialMosaic——一个包含200万问答对的综合性指令微调数据集。我们进一步推出了SpatialMosaic-Bench,这是一个用于评估真实且具有挑战性场景下多视角空间推理能力的基准测试,包含涵盖6项任务的100万问答对。此外,我们提出了SpatialMosaicVLM,一种将三维重建模型作为几何编码器集成到VLMs中的混合框架,以实现鲁棒的空间推理。大量实验表明,我们提出的数据集与视觉问答任务能有效提升在挑战性多视角条件下的空间推理能力,验证了我们的数据生成流程在构建真实且多样化问答对方面的有效性。代码与数据集即将发布。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员