【博士论文】生成模型中的可控性与不确定性，214页pdf

本论文描述了增强生成模型的方法，这些方法增加了可控性或不确定性的表达能力，展示了如何通过强大的先验知识同时实现这两个特性。一种通用方法是引入新的架构或训练目标。然而，当前朝着模型规模、训练数据和计算资源的大规模扩张的趋势，可能使得重新训练或微调变得困难且昂贵。因此，另一种方法是在现有的预训练模型之上构建。我们考虑了这两种方法，特别强调后者。我们首先通过基于训练的方法解决可控图像合成和不确定性估计的任务，然后转向不需要直接更新基础模型参数的计算效率方法。我们最后通过讨论基于我们发现的洞见的未来方向来结束。

深度学习结合大规模神经网络在现代机器学习和人工智能（AI）的广泛任务中带来了迅速进展。因此，我们看到了越来越多的努力，旨在将 AI 集成到我们日常生活的各个方面，范围从创意应用（例如，计算机生成的艺术作品）到辅助系统（例如，自动驾驶车辆）。对于与现实世界环境桥接的兴趣有助于塑造研究的方向，考虑到了额外的考虑因素和必要的特性。以前述应用为例，能够控制生成图像的内容或风格为更广泛的受众解锁了更多用例，并且理解可靠性和/或使自动驾驶系统能够表达对不熟悉场景的不确定性对于安全决策至关重要。虽然有时可以通过新架构或训练目标的显式设计来整合这样的特性，但在许多场景下，这种基于训练的方法是具有挑战性或甚至不可行的。首先，投入到训练单个网络的计算资源本身就非常昂贵，更不用说不得不重新训练或微调了。其次，深度学习是数据驱动的，其成功的一个主要因素是使用了大量的训练数据。在如此多数据被收集的时代，数据怎会成为限制因素？世界不是一个均匀分布，其数据也不是（无论是类型/模态还是每个领域的数量）。在资源和/或数据有限的情况下，是否可能操纵现有模型的学习先验以引出所需的特征？在这篇论文中，我们探索了可控性和不确定性的主题，特别是在生成模型的背景下。我们考虑了两种类型的方法——要么使用新目标进行训练，要么有效地适应现有模型而不直接更新它们的参数。主要贡献如下： I 可控图像合成

基于Transformer的多模态图像合成。我们引入了一种基于Transformer的方法，用于生成以输入草图和风格图像为条件的图像。为了使训练成为可能，我们首先使用自动化流程，为125个不同类别收集了大约113K个“伪草图”-图像对数据集。Transformer预测的代码本表示由预训练的向量量化生成对抗网络解码，以产生复合图像。我们是首次探索这种特定组合的条件输入用于图像合成。

使用预训练扩散模型的多模态图像合成。我们提出了一种方法，用于将预训练的无条件或文本条件扩散模型适应于多模态合成。保持扩散模型的参数冻结，我们训练一个外部模块，该模块对扩散模型的输出应用空间调制。我们展示了所提出的模块可以有效地添加新的条件模态，而参数和训练示例相对较少。与其他同时期的工作也旨在调节预训练网络不同，我们不需要直接访问基础模型的参数或梯度。

文本到图像扩散模型的高效个性化。我们提出了一种基于低秩残差的方法，用于文本到图像扩散模型的高效个性化。给定目标概念的几张图像，我们为扩散模型的一小部分参数学习一组残差，并保持扩散模型冻结。在推理时，我们可以利用底层模型的注意力图来定位图像中应用残差的区域，从而将新概念与底层模型的生成先验结合起来。与现有方法相比，我们大大减少了可学习参数的数量和训练时间。

II 生成模型中的不确定性

自动微分变分推理与混合物。我们研究了将混合分布作为变分推理中的后验的使用。我们引入了一个新的训练目标，该目标结合了分层抽样和重要性加权，以对抗可能导致混合组件崩溃成单峰分布的有害探索惩罚。我们展示了在部分或损坏的观测下改善的生成性能。

用于异常检测的状态密度估计。我们探索使用各种类别的生成模型进行无监督异常（OOD）检测的任务。我们首先使用预训练的生成模型计算训练数据上的一系列统计量。我们提出创建一个基于值概率的决策规则，而不是基于统计量的直接值来确定一个新输入是否为OOD。我们的方法可以轻松应用于任何现有模型，并且性能优于现有的无监督基线。

在第8章中，我们总结了这篇论文的贡献，并讨论了可控图像合成和生成模型中不确定性的潜在未来方向。