3D scene generation plays a crucial role in gaming, artistic creation, virtual reality, and many other domains. However, current 3D scene design still relies heavily on extensive manual effort from creators, and existing automated methods struggle to generate open-domain scenes or support flexible editing. To address those challenges, we introduce HOLODECK 2.0, an advanced vision-language-guided framework for 3D world generation with support for interactive scene editing based on human feedback. HOLODECK 2.0 can generate diverse and stylistically rich 3D scenes (e.g., realistic, cartoon, anime, and cyberpunk styles) that exhibit high semantic fidelity to fine-grained input descriptions, suitable for both indoor and open-domain environments. HOLODECK 2.0 leverages vision-language models (VLMs) to identify and parse the objects required in a scene and generates corresponding high-quality assets via state-of-the-art 3D generative models. Then, HOLODECK 2.0 iteratively applies spatial constraints derived from the VLMs to achieve semantically coherent and physically plausible layouts. Both human and model evaluations demonstrate that HOLODECK 2.0 effectively generates high-quality scenes closely aligned with detailed textual descriptions, consistently outperforming baselines across indoor and open-domain scenarios. Additionally, HOLODECK 2.0 provides editing capabilities that flexibly adapt to human feedback, supporting layout refinement and style-consistent object edits. Finally, we present a practical application of HOLODECK 2.0 in procedural game modeling to generate visually rich and immersive environments that can boost efficiency in game design.


翻译:三维场景生成在游戏、艺术创作、虚拟现实等诸多领域扮演着关键角色。然而,当前的三维场景设计仍严重依赖创作者的大量手动工作,而现有的自动化方法难以生成开放域场景或支持灵活的编辑。为应对这些挑战,我们提出了HOLODECK 2.0,这是一个先进的视觉-语言引导框架,用于三维世界生成,并支持基于人类反馈的交互式场景编辑。HOLODECK 2.0能够生成多样且风格丰富(例如写实、卡通、动漫和赛博朋克风格)的三维场景,这些场景对细粒度输入描述展现出高度的语义保真度,适用于室内及开放域环境。HOLODECK 2.0利用视觉-语言模型(VLMs)来识别和解析场景中所需的对象,并通过最先进的三维生成模型生成相应的高质量资产。随后,HOLODECK 2.0迭代地应用从VLMs导出的空间约束,以实现语义连贯且物理合理的布局。人工评估与模型评估均表明,HOLODECK 2.0能够有效生成与详细文本描述高度一致的高质量场景,在室内和开放域场景中均持续优于基线方法。此外,HOLODECK 2.0提供了编辑能力,能够灵活适应人类反馈,支持布局优化和风格一致的对象编辑。最后,我们展示了HOLODECK 2.0在程序化游戏建模中的一个实际应用,以生成视觉丰富且沉浸感强的环境,从而提升游戏设计的效率。

0
下载
关闭预览

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员