Natural language applied to natural 2D images describes a fundamentally 3D world. We present the Voxel-informed Language Grounder (VLG), a language grounding model that leverages 3D geometric information in the form of voxel maps derived from the visual input using a volumetric reconstruction model. We show that VLG significantly improves grounding accuracy on SNARE, an object reference game task. At the time of writing, VLG holds the top place on the SNARE leaderboard, achieving SOTA results with a 2.0% absolute improvement.
翻译:天然 2D 图像的自然语言描述一个根本的 3D 世界。 我们展示了Voxel 知情语言地表仪(VLG), 这是一种语言定位模型,它利用了3D 几何信息, 其形式是用量体重建模型从视觉输入中提取的 voxel 地图。 我们显示, VLG 显著提高了SNARE 的地基精确度, SNARE 是一个目标参考游戏任务。 在编写本报告时, VLG 在 SNARE 首列上居首位, 实现了 SOTA 成果, 实现了2.0%的绝对改善 。