Reasoning about motion and space is a fundamental cognitive capability that is required by multiple real-world applications. While many studies highlight that large multimodal language models (MLMs) struggle to reason about space, they only focus on static spatial relationships, and not dynamic awareness of motion and space, i.e., reasoning about the effect of egocentric and object motions on spatial relationships. Manually annotating such object and camera movements is expensive. Hence, we introduce SAT, a simulated spatial aptitude training dataset utilizing 3D simulators, comprising both static and dynamic spatial reasoning across 175K question-answer (QA) pairs and 20K scenes. Complementing this, we also construct a small (150 image-QAs) yet challenging dynamic spatial test set using real-world images. Leveraging our SAT datasets and 6 existing static spatial benchmarks, we systematically investigate what improves both static and dynamic spatial awareness. Our results reveal that simulations are surprisingly effective at imparting spatial aptitude to MLMs that translate to real images. We show that perfect annotations in simulation are more effective than existing approaches of pseudo-annotating real images. For instance, SAT training improves a LLaVA-13B model by an average 11% and a LLaVA-Video-7B model by an average 8% on multiple spatial benchmarks, including our real-image dynamic test set and spatial reasoning on long videos -- even outperforming some large proprietary models. While reasoning over static relationships improves with synthetic training data, there is still considerable room for improvement for dynamic reasoning questions.


翻译:对运动和空间的推理是一项基本的认知能力,被多种现实世界应用所需求。尽管许多研究指出大型多模态语言模型(MLMs)在空间推理方面存在困难,但这些研究仅关注静态空间关系,而未涉及对运动和空间的动态感知,即推理自我中心运动和物体运动对空间关系的影响。手动标注此类物体和相机运动成本高昂。因此,我们引入了SAT,一个利用3D模拟器构建的模拟空间能力训练数据集,包含17.5万个问答对和2万个场景中的静态与动态空间推理。作为补充,我们还使用真实世界图像构建了一个规模较小(150个图像-问答对)但具有挑战性的动态空间测试集。借助我们的SAT数据集及6个现有的静态空间基准测试,我们系统性地探究了提升静态与动态空间感知能力的因素。结果表明,模拟数据在向MLMs传授空间能力方面出人意料地有效,且这种能力能够迁移至真实图像。我们发现,模拟环境中的完美标注比现有对真实图像进行伪标注的方法更为有效。例如,SAT训练使LLaVA-13B模型在多个空间基准测试(包括我们的真实图像动态测试集及长视频空间推理)中平均提升11%,使LLaVA-Video-7B模型平均提升8%,甚至在某些情况下超越了一些大型专有模型。尽管合成训练数据能改善静态关系推理,但动态推理问题仍有显著的提升空间。

0
下载
关闭预览

相关内容

SAT是研究者关注命题可满足性问题的理论与应用的第一次年度会议。除了简单命题可满足性外,它还包括布尔优化(如MaxSAT和伪布尔(PB)约束)、量化布尔公式(QBF)、可满足性模理论(SMT)和约束规划(CP),用于与布尔级推理有明确联系的问题。官网链接:http://sat2019.tecnico.ulisboa.pt/
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员