【伯克利博士论文】可迁移生成模型，137页pdf

我们展示了在开发稳定、可扩展和可传递的用于视觉数据的生成模型方面的进展。我们首先利用自回归模型学习表达丰富的图像先验知识，这些模型可以生成高质量且多样化的图像。然后，我们探索了迁移学习，将视觉表征模型推广到具有有限可用数据的新数据模态。我们提出了两种方法，通过从预训练的判别式视觉模型中提取知识，从稀疏的输入图像或自然语言描述生成高质量的3D图形。我们简要总结了利用去噪扩散概率模型改善生成质量的工作，并展示了如何将其转移到新的模态，包括使用分数蒸馏采样进行高质量的文本到3D合成。最后，我们通过优化矢量图形渲染器，利用从预训练的文本到图像扩散模型中提取的知识，从文本生成2D矢量图形，而无需矢量图形数据。我们的模型可以在许多模态下实现高质量的生成，并在随后的工作中得到广泛应用。

研究主要集中在三类工作上：(i) 可以扩展学习的高效计算机系统，(ii) 开发更具表达力和稳定性的模型，以便从规模效应中受益，以及 (iii) 能够使模型推广到新模态的迁移学习算法。在这篇论文中，我将专注于后两类工作。

从真实样本中估计高维分布是机器学习和统计学中一个长期存在的挑战性问题。这样的分布估计需要一个模型来捕捉一组变量之间的相互依赖关系，例如随机向量的各个维度。通过参数化分布估计，几乎可以在真实世界的数据上实现神奇的效果。当这些分布描述图像时，这些应用包括无条件图像生成，例如合成无限的人工数据，基于已知属性的图像生成，照片编辑，增强技术，如超分辨率或修复，领域转换等等。深度生成模型还推动了其他数据模态的进展，包括语音合成、音乐生成和自然语言生成。

在深度生成模型的许多研究中，重点是估计无条件参数分布𝑝𝜃 (x)，通过与任务无关的样本质量和似然度量来衡量进展。然而，生成建模的吸引力在于先验分布𝑝𝜃在向下游任务中的灵活性，其中通常可以获取一些条件信息，如类别标签𝑦或损坏的观测值x˜。在这些设置中，能够以较低的计算成本访问所需的后验分布（例如𝑝𝜃 (x|x˜)）至关重要。通用的推断算法在某些情况下可以从所需的后验中进行采样，但理想情况下，我们希望能够准确且高效地对这些后验进行计算。

我们的整体目标是学习和转移表达丰富的生成视觉模型到许多领域。我们通过消除生成图像先验中的架构限制来解决这个问题，然后通过从大型预训练模型中转移知识，降低生成应用的数据需求。首先，在第二章中，我们提出了一种改进的PixelCNN自回归模型架构，支持对数据维度进行任意条件分布的图像补全应用。我们修改后的架构，局部掩蔽的PixelCNN，允许在集合中共享参数，从而提高密度估计。然而，自回归模型是强大的密度估计器，但在小尺度上样本质量较差，采样速度慢，并且在条件生成任务上相对不够灵活。特别是，像PixelCNN这样的自回归模型一次只对一个数据维度进行采样，通常需要进行完整的神经网络前向传递，这是低效的。

在第三章中，我们探索了图像合成的一个具有挑战性的应用：新视角合成（NVS）问题。NVS的目标是从新的相机位置插值出场景的稀疏视角。在给定稀疏采样的观察视角的情况下，基于神经辐射场的现有方法估计了编码特定场景几何和外观的神经网络的参数。然后，使用体积渲染生成新视角。在我们的工作中，我们提出了一个辅助损失函数，允许将大型图像编码器的先验知识转移到视角合成问题中。这使得神经辐射场能够对未见区域进行外推——这对于生成模型来说是一项重要的能力。使用辅助损失函数来约束场景表示还可以改善视角合成的质量，即使只有1-8个观察图像。利用自监督模型的先验知识是提高生成模型的数据效率、灵活性和可控性的一种有前途的方法。是否需要任何观察？在第四章中，我们展示了特征空间损失可以用于仅通过标题生成一个3D物体。我们描述了一种名为Dream Fields的方法，通过测试时训练来合成一个3D神经辐射场。Dream Fields由一个经过正则化的3D表示和一个基于预训练语言模型和图像编码器的特征空间对齐的损失函数优化而成。正则化对于高质量是至关重要的。我们的工作为无需使用任何3D训练数据的开放领域文本到3D生成铺平了道路。

DietNeRF和Dream Fields依赖于来自自监督视觉Transformer和对比语言-视觉双编码器等判别模型的先验知识。然而，判别模型不一定能够完全表示高质量合成所需的所有视觉细节。第五章简要讨论了我们在生成建模方面的两项工作，使得跨模态生成具有更高保真度成为可能。首先，我们开发了一种新的去噪扩散概率模型（DDPM），它在图像合成方面实现了最先进的样本质量。DDPM被证明是一种高度可扩展且稳定的先验模型，可以直接在不同模态下进行训练。然而，在不同格式的训练数据可用量上总会存在差异：当前图像数据集的规模比最大的3D数据集大几个数量级。在后续的工作中，我们找到了将扩散模型从其训练模态中转移出来的新方法。我们提出了分数蒸馏采样损失来实现这种转移能力，并将其首次应用于高质量的文本到3D方法，即Dream Fusion。在扩散模型和分数蒸馏采样的基础上，我们在第六章中基于预训练的文本到图像扩散模型开发了一种文本到SVG的方法，称为VectorFusion。VectorFusion展示了生成模型从文本中创建抽象的矢量化图形的潜力。在整个论文中，我们通过将在数据丰富的模态上学习到的大规模先验知识与可微分的渲染器相结合，构建了强大的合成工具，这些渲染器表示了为下游任务有用的定制模态。第七章提供了总结思考。