在给定某些数据分布的样本情况下,生成建模的核心目标是从大致相同的分布中生成更多样本。这一框架最近变得极其流行,其在图像生成、语言模型和蛋白质合成等领域的应用令人印象深刻。这些方法的显著成功引发了两个关键问题:在什么条件下生成模型能提供对底层数据分布的准确近似?我们能否扩展它们的应用场景范围?本论文在两类生成模型的背景下考虑这些问题:扩散模型和重要性加权自编码器。
扩散模型通过迭代地向数据分布应用噪声,然后学习去除这种噪声来工作。它们最初是为实数值数据引入的。然而,对于许多潜在应用来说,我们的数据最自然地定义在另一个状态空间上——也许是流形或离散空间。我们描述了扩散模型到任意状态空间的扩展,使用通用的马尔可夫过程进行噪声处理,并展示了这样的模型如何被有效地学习。我们还提供了对离散状态空间的特定扩展的详细研究。接下来,我们调查了扩散模型的近似准确性。我们为流匹配推导出误差界限——扩散模型的一个概括——并使用受随机定位启发的技术改进了扩散模型的现有最优界限。
重要性加权自编码器(IWAEs)通过学习数据的潜变量表示,使用在证据下界中的重要性抽样来获得更紧的变分目标。IWAEs存在几个限制,包括后验方差低估、训练中的信噪比差和重要性抽样比率中的权重崩溃。我们提出了IWAE的一个扩展——VR-IWAE——解决了这三个问题中的前两个。然后我们提供了第三个问题的详细理论研究,表明它甚至在VR-IWAE中也存在。我们在一系列模拟和实际数据上提供了这些现象的实证演示。 在我们设计算法执行的许多最基本的任务中,基本层面上涉及生成数据。例如,我们可能希望有能合成音频、编写连贯文本或根据描述绘制图像的算法。然而,对于大多数有趣的任务,合理数据的分布非常复杂且难以明确指定——准确描述使图像或文本片段令人信服的特征极其具有挑战性,最初尝试构建能在人类水平上执行这些任务的人工智能系统大多因此失败。幸运的是,对于我们希望生成的许多类型的数据,已有大量现有数据可用。这提出了一种可能性,即我们可以利用这些现有数据来了解一些关于底层分布的信息,然后使用我们所学到的知识来指导我们生成新数据。从数学上看,这一观点在生成模型的核心问题中得到了体现:给定来自数据分布 pdata(x) 的样本,我们能否生成来自大致相同分布的附加合成样本?更一般地,我们问,给定来自联合分布 pdata(ξ, x) 的样本,我们能否生成来自条件分布 pdata(x|ξ) 的近似样本。这使我们能够例如根据给定的文本提示 ξ 生成图像 x。能执行此任务的模型称为生成模型,它们是生成各种条件数据的一种极具影响力的技术。
在过去的十年中,深度学习的兴起激发了一系列基于神经网络的生成建模技术。这些技术包括生成对抗网络(Goodfellow等,2014年)、变分自编码器(VAEs)(Kingma等,2014年)、规范化流(Rezende等,2015年)、自回归模型(Oord等,2016b年)、扩散模型(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)以及流匹配方法(Lipman等,2023年;Albergo等,2023b年)。这些模型在各种领域取得了显著进展,包括图像合成(Karras等,2020年;Vahdat等,2020年;Ramesh等,2022年;Saharia等,2022年)、文本生成(Brown等,2020年;Anil等,2023年)、音频生成(Oord等,2016a年;Popov等,2021年;Le等,2023年)和分子结构生成(Ingraham等,2019年;Trippe等,2023年)。这些方法的惊人成功引发了两个问题,这将是本论文的核心主题: • 我们能否理解这些生成模型在什么条件下提供对底层数据分布的准确近似? • 我们能否扩大这些生成模型可能应用的场景范围?
尽管可能的生成建模技术空间非常广泛,但在本论文中,我们选择关注现有技术的一个子集。在论文的第一部分,我们研究了扩散建模及其近亲流匹配。在第二部分,我们将注意力转向变分自编码器,特别是一种称为重要性加权自编码器(IWAE)(Burda等,2016年)的扩展。 扩散模型最初是为定义在 R^d 上的数据开发的(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)。然而,有很多形式的数据并不是最自然地表示在 R^d 上。例如,文本数据自然是离散的,而地理空间数据通常取值于球面 S^2。尽管我们可以选择将这些分布嵌入到实数向量空间中,但开发尊重数据分布内在结构的扩散模型可能更为合适。这些模型的开发是本论文第2章和第3章的主题。 其次,我们调查了扩散模型提供的近似有多准确。具体来说,我们研究了 R^d 上的扩散模型收敛到真实数据分布的速率。我们希望了解这些收敛率可以洞察为什么扩散模型在经验上如此成功。此外,我们希望它能揭示它们在什么条件下会(或不会)提供准确的近似,可能激励更有效的扩散方法的设计。这是第4章和第5章的主题。 第三,在第6章中,我们转向 VAE 及其表亲 IWAE,后者在变分目标中使用重要性抽样以获得更紧的变分界限。这些方法已被观察到有几个实际限制,我们寻求解决。首先,VAE 通常遭受后验方差低估的问题(Minka,2005年),意味着它们通常无法实现对数据分布的良好覆盖。Li等(2016年)的先前工作用Rényi的α-散度(Rényi,1961年)替换了VAE目标中的Kullback–Leibler(KL)散度,试图鼓励模式寻求行为;我们问这一洞察是否可以推广到IWAE设置。其次,尽管IWAE提供了更紧的变分界限,但实践中它的信噪比(SNR)低(Rainforth等,2018年)。我们研究了我们基于α-散度的IWAE扩展对这个问题的影响。第三,我们怀疑 IWAE 边界中的重要性抽样应在高维中遭受权重崩溃(Bengtsson等,2008年),这可能使其在实践中无效;我们旨在提供这一现象的量化分析并展示其实际相关性。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。