【HKUST博士论文】单视图图像的高质量3D生成

生成模型近年来在二维和视频合成领域取得了显著进展。然而，二维和视频生成中仍然存在明显的不一致性，例如光照和几何相关的问题。引入三维建模有望增强二维和视频生成的连贯性与真实感，从而推动三维生成技术的进一步发展。鉴于直接用于生成建模的大量三维数据收集存在挑战，从单视图图像学习三维分布成为一种可行的三维生成方法。这种方法得益于大量可用的非结构化、高质量且多样化的单视图图像数据。一种常见的从单视图图像生成三维内容的策略是采用生成对抗网络（GAN），并用三维渲染器替代生成器。本论文从四个角度探讨了三维生成领域。首先，我们研究生成的几何形状，并提出通过将三维感知注入到生成器和判别器中来增强学习到的几何结构。其次，我们分析了三维生成模型训练中对姿态的要求，并解除生成器对姿态先验的限制，从而实现更灵活的三维生成模型。第三，在复杂场景合成的背景下，我们分析了现有方法的不足，并提出利用三维先验来促进从单视图场景图像进行三维建模。第四，我们还将讨论高效三维生成表示的引入，特别是高斯散点表示（Gaussian Splatting）。最后，我们展望了三维生成领域的未来发展方向。深度学习的快速发展[21]显著推动了计算机视觉领域中的许多任务，例如视觉对象识别[22, 23]、目标检测[24, 25, 26]、图像渲染[27, 28, 1]等，并在诸多方面便利了我们的日常生活，如自动驾驶[29, 30]、生物研究[31]和智能创作[32, 33]。在所有技术类型中，生成建模[34, 35, 36]在数据分析和机器学习中发挥了重要作用。与直接对输入进行预测的判别模型不同，生成模型旨在再现数据分布，以便能够从中采样新的实例。为此目的，它们需要全面地表征数据。例如，检测模型可以忽略与任务无关的信息（如颜色）而不影响性能，但生成模型需要管理图像的每个细节（如物体排列以及每个物体的纹理）以实现令人满意的生成。从这一角度来看，学习生成模型通常更具挑战性，但同时也促进了一系列应用[37, 38, 39, 33]。近年来，深度生成模型[35, 34, 36]在二维图像合成[33, 40, 41]方面取得了令人难以置信的成功。然而，在二维空间中学习生成模型已逐渐难以满足某些现实世界应用的需求，因为我们的物理世界实际上是三维的。以电影行业为例，我们期望设计三维数字资产，而不仅仅是生成二维图像，以带来身临其境的体验。现有的内容创作流程通常需要大量专业知识和人力投入，这既耗时又昂贵。许多开创性的尝试[42, 43, 44, 45, 2, 46]旨在研究如何自动生成三维数据，但这类研究仍处于早期阶段。二维生成和三维生成之间的关键区别之一在于数据格式。具体而言，二维图像可以自然地表示为像素值的数组，便于神经网络[22, 23]处理。而常见的三维表示形式（如点云[47, 48]、网格[49, 50]和体素网格[51, 52]）则难以直接被卷积神经网络处理。最近，隐式表示形式Neural Radiance Field（NeRF）[1]被提出用于通过学习从坐标到三维属性的映射来建模三维对象，成为与神经网络兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通过将NeRF与生成对抗网络（GAN）[34]结合，使三维生成成为可能，从而发展出一种三维感知的GAN。具体而言，它们用三维渲染器替代GAN中的生成器。这种替换使得在生成图像时可以显式地控制视点，从而得益于生成器的三维感知能力。三维生成的难点还来源于训练数据的获取。在理想情况下，高质量三维资产的全面集合对于准确的生成建模至关重要。然而，使用设备大规模获取此类数据极其困难。一种引人注目的方法是探索从二维生成数据集中转移知识的潜力。一种可行的方法是利用二维单视图图像数据集学习三维表示。每个三维对象通常对应多个从不同视点拍摄的相似图像，具有类似的结构。例如，在数据集中可能仅有不超过两张同一人脸的图像。鉴于人脸的共同结构特性，从不同角度拍摄的多样化图像中提取通用人脸特征是可行的。这使得模型能够想象每个人脸的未见视图。通过这种方式，可以探索如何从二维单视图图像集合中学习三维生成。构建高效三维生成器需考虑以下几个关键因素：

高质量图像生成能力：生成器必须能够生成高分辨率、高保真且真实感强的图像，包括光照、阴影和纹理的真实性。与二维生成相比，三维生成任务中的“高质量图像”还意味着多视图一致性，即不同视图图像的重叠区域应表示相同的物体并具有一致的纹理。
高质量的几何基础：生成的几何形状应合理且精确。这是一个挑战性任务，因为训练数据不仅是单视图的，而且是图像格式。因此，生成器需采用先进的几何建模技术，确保表面光滑、比例真实，并在场景中保持一致的几何结构。此外，它还应能生成复杂的结构，如精细的建筑结构。
轻松利用易得数据的能力：模型应能有效利用易收集的数据集，而不需要大量的预处理或专门的数据采集。例如，大多数三维生成方法[2, 6]要求对收集数据进行精确的姿态标注，这非常昂贵。去除这种数据要求是必要的，以使三维生成模型能够泛化到任意类别的数据。
复杂场景生成的能力：三维世界由不同的物体组成，生成器需不仅能生成单一物体，还能捕获场景中物体之间复杂的关系。由于场景中定义一个标准化空间非常困难，更可行的方法是借助附加的弱三维提示（如深度信息）来确保在只有单视图图像数据的情况下实现高质量场景生成。
高效的训练与推理：许多三维生成模型通常需要约5至7天在8个高端GPU上进行训练才能有效收敛，这导致了相当大的能源浪费。因此，提高模型效率至关重要。这需要仔细设计网络结构和三维表示形式，因为这些要素在优化计算资源和减少训练时间方面起着关键作用。本文余下部分将讨论如何实现这些目标，具体组织如下：第二章介绍三维生成的基础知识，包括生成对抗网络的公式和三维生成的表示形式，同时讨论相关工作及三维生成任务中的挑战。第三章分析当前最流行的三维生成方法的问题，并探讨如何在三维生成模型中保证良好的几何基础。第四章研究大多数三维生成方法对姿态标注的依赖性问题，并提出一种新方法以摆脱此类先验需求，从而支持从易得数据中学习的概念。第五章指出复杂场景生成的问题，并提出一种新架构以促进真实场景生成。第六章聚焦于高效且可动画的三维生成。最后，第七章讨论了三维生成模型领域中未解决的问题及未来工作方向。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【NTU博士论文】基于深度生成模型的图像恢复与表示

专知会员服务

19+阅读 · 2月23日

【NTU博士论文】数据高效的深度多模态学习

专知会员服务

21+阅读 · 1月31日

【博士论文】迈向值得信赖的视觉生成模型：扩散模型的可靠且可控生成

专知会员服务

16+阅读 · 1月27日

【CUHK博士论文】构建高效且可扩展的视频理解AI模型

专知会员服务

16+阅读 · 1月25日