随着虚拟现实(Virtual Reality, VR)、增强现实(Augmented Reality, AR)以及其他三维应用的普及,开发能够让普通用户捕捉并创建自身三维内容的方法变得愈发重要。然而,现有的三维内容创建流程往往需要繁琐的人工操作或专门的采集设备。此外,生成的三维资产常常存在光照被固定在表面(baked-in lighting)、表示不一致以及缺乏物理合理性等问题,从而限制了其在下游应用中的使用。 本论文针对这些挑战,提出了一系列方法,利用数据驱动的先验来显著降低三维内容创建的门槛。通过利用其他模态的信息、大规模数据集以及预训练生成模型,本研究将用户输入的负担简化为随手拍摄的照片、简单的草图以及文本提示。 我们首先展示了如何利用深度先验,使用户无需密集的数据采集即可数字化三维场景,并探讨了如何通过二维用户输入(如草图)来实现交互式的三维编辑与生成。接着,我们提出了一条端到端的文本到三维生成流程,该流程能够同时生成三维资产的几何与纹理。在几何生成方面,我们提出了一种基于八叉树的自适应标记化方案,该方案能够根据形状复杂度分配表示能力,从而实现更高保真度和更高效率的三维形状重建与生成。此外,在外观建模方面,我们利用数据和扩散模型先验,基于文本输入为网格生成可重光照的纹理,确保生成的三维对象能够在下游生产工作流中正常使用。最后,为了将数字化设计与现实世界相结合,我们引入了 BrickGPT,它将制造与物理约束纳入考虑,能够从文本提示生成物理上稳定且可搭建的玩具积木结构。 总体而言,这些研究成果通过在几何表示、外观建模以及具备物理感知的生成三个核心挑战上的突破,弥合了用户高层意图与可编辑、可用且物理可实现的三维内容创建之间的鸿沟。