Driving World Models (DWMs) have been developing rapidly with the advances of generative models. However, existing DWMs lack 3D scene understanding capabilities and can only generate content conditioned on input data, without the ability to interpret or reason about the driving environment. Moreover, current approaches represent 3D spatial information with point cloud or BEV features do not accurately align textual information with the underlying 3D scene. To address these limitations, we propose a novel unified DWM framework based on 3D Gaussian scene representation, which enables both 3D scene understanding and multi-modal scene generation, while also enabling contextual enrichment for understanding and generation tasks. Our approach directly aligns textual information with the 3D scene by embedding rich linguistic features into each Gaussian primitive, thereby achieving early modality alignment. In addition, we design a novel task-aware language-guided sampling strategy that removes redundant 3D Gaussians and injects accurate and compact 3D tokens into LLM. Furthermore, we design a dual-condition multi-modal generation model, where the information captured by our vision-language model is leveraged as a high-level language condition in combination with a low-level image condition, jointly guiding the multi-modal generation process. We conduct comprehensive studies on the nuScenes, and NuInteract datasets to validate the effectiveness of our framework. Our method achieves state-of-the-art performance. We will release the code publicly on GitHub https://github.com/dtc111111/GaussianDWM.


翻译:随着生成模型的进步,驾驶世界模型(DWMs)得到了快速发展。然而,现有的DWMs缺乏3D场景理解能力,只能根据输入数据生成内容,无法解释或推理驾驶环境。此外,当前方法使用点云或BEV特征表示3D空间信息,未能将文本信息与底层3D场景准确对齐。为解决这些局限性,我们提出了一种基于3D高斯场景表示的新型统一DWM框架,该框架既能实现3D场景理解,又能进行多模态场景生成,同时为理解和生成任务提供上下文增强。我们的方法通过将丰富的语言特征嵌入到每个高斯基元中,直接将文本信息与3D场景对齐,从而实现早期的模态对齐。此外,我们设计了一种新颖的任务感知语言引导采样策略,该策略去除冗余的3D高斯基元,并将精确且紧凑的3D令牌注入到LLM中。进一步地,我们设计了一个双条件多模态生成模型,其中视觉-语言模型捕获的信息被用作高级语言条件,与低级图像条件相结合,共同指导多模态生成过程。我们在nuScenes和NuInteract数据集上进行了全面研究,以验证我们框架的有效性。我们的方法实现了最先进的性能。我们将在GitHub上公开代码:https://github.com/dtc111111/GaussianDWM。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员