生成模型近年来在二维和视频合成领域取得了显著进展。然而,二维和视频生成中仍然存在明显的不一致性,例如光照和几何相关的问题。引入三维建模有望增强二维和视频生成的连贯性与真实感,从而推动三维生成技术的进一步发展。鉴于直接用于生成建模的大量三维数据收集存在挑战,从单视图图像学习三维分布成为一种可行的三维生成方法。这种方法得益于大量可用的非结构化、高质量且多样化的单视图图像数据。一种常见的从单视图图像生成三维内容的策略是采用生成对抗网络(GAN),并用三维渲染器替代生成器。本论文从四个角度探讨了三维生成领域。首先,我们研究生成的几何形状,并提出通过将三维感知注入到生成器和判别器中来增强学习到的几何结构。其次,我们分析了三维生成模型训练中对姿态的要求,并解除生成器对姿态先验的限制,从而实现更灵活的三维生成模型。第三,在复杂场景合成的背景下,我们分析了现有方法的不足,并提出利用三维先验来促进从单视图场景图像进行三维建模。第四,我们还将讨论高效三维生成表示的引入,特别是高斯散点表示(Gaussian Splatting)。最后,我们展望了三维生成领域的未来发展方向。深度学习的快速发展[21]显著推动了计算机视觉领域中的许多任务,例如视觉对象识别[22, 23]、目标检测[24, 25, 26]、图像渲染[27, 28, 1]等,并在诸多方面便利了我们的日常生活,如自动驾驶[29, 30]、生物研究[31]和智能创作[32, 33]。在所有技术类型中,生成建模[34, 35, 36]在数据分析和机器学习中发挥了重要作用。与直接对输入进行预测的判别模型不同,生成模型旨在再现数据分布,以便能够从中采样新的实例。为此目的,它们需要全面地表征数据。例如,检测模型可以忽略与任务无关的信息(如颜色)而不影响性能,但生成模型需要管理图像的每个细节(如物体排列以及每个物体的纹理)以实现令人满意的生成。从这一角度来看,学习生成模型通常更具挑战性,但同时也促进了一系列应用[37, 38, 39, 33]。近年来,深度生成模型[35, 34, 36]在二维图像合成[33, 40, 41]方面取得了令人难以置信的成功。然而,在二维空间中学习生成模型已逐渐难以满足某些现实世界应用的需求,因为我们的物理世界实际上是三维的。以电影行业为例,我们期望设计三维数字资产,而不仅仅是生成二维图像,以带来身临其境的体验。现有的内容创作流程通常需要大量专业知识和人力投入,这既耗时又昂贵。许多开创性的尝试[42, 43, 44, 45, 2, 46]旨在研究如何自动生成三维数据,但这类研究仍处于早期阶段。二维生成和三维生成之间的关键区别之一在于数据格式。具体而言,二维图像可以自然地表示为像素值的数组,便于神经网络[22, 23]处理。而常见的三维表示形式(如点云[47, 48]、网格[49, 50]和体素网格[51, 52])则难以直接被卷积神经网络处理。最近,隐式表示形式Neural Radiance Field(NeRF)[1]被提出用于通过学习从坐标到三维属性的映射来建模三维对象,成为与神经网络兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通过将NeRF与生成对抗网络(GAN)[34]结合,使三维生成成为可能,从而发展出一种三维感知的GAN。具体而言,它们用三维渲染器替代GAN中的生成器。这种替换使得在生成图像时可以显式地控制视点,从而得益于生成器的三维感知能力。三维生成的难点还来源于训练数据的获取。在理想情况下,高质量三维资产的全面集合对于准确的生成建模至关重要。然而,使用设备大规模获取此类数据极其困难。一种引人注目的方法是探索从二维生成数据集中转移知识的潜力。一种可行的方法是利用二维单视图图像数据集学习三维表示。每个三维对象通常对应多个从不同视点拍摄的相似图像,具有类似的结构。例如,在数据集中可能仅有不超过两张同一人脸的图像。鉴于人脸的共同结构特性,从不同角度拍摄的多样化图像中提取通用人脸特征是可行的。这使得模型能够想象每个人脸的未见视图。通过这种方式,可以探索如何从二维单视图图像集合中学习三维生成。构建高效三维生成器需考虑以下几个关键因素: