本专著聚焦于塑造扩散模型(diffusion models)发展的核心原理,追溯其起源,并展示不同形式如何从共同的数学思想中演化而来。 扩散建模的起点是定义一个正向扰动过程(forward corruption process),该过程会逐步将数据转化为噪声。通过定义一系列连续的中间分布,这一正向过程将复杂的数据分布与简单的噪声分布相连接。扩散模型的核心目标是构建一个反向生成过程(reverse process),使其能够沿与正向扰动相反的方向运行,从噪声逐步还原出数据,同时复现与正向过程一致的中间分布。 我们从三种互补的视角对这一思想进行形式化阐述: * 变分视角(Variational view):受变分自编码器(VAE)的启发,将扩散过程视为逐步去噪的学习过程。模型通过一系列小的去噪目标(denoising objectives)学习如何一步步将噪声还原为数据。 * 基于得分的视角(Score-based view):源于能量模型(energy-based modeling),学习数据分布随时间演化的梯度,即“得分函数(score function)”,用于指示样本应朝哪些方向调整以进入更高概率区域。 * 基于流的视角(Flow-based view):与归一化流(normalizing flows)相关,将生成视为沿着由学习到的速度场(velocity field)控制的平滑路径,从噪声平滑地迁移至数据。
这三种视角共享一个共同的数学骨架:一个随时间变化的学习速度场(time-dependent velocity field),其流动将简单的先验分布传输到目标数据分布。在此基础上,采样过程可以被视为求解一个微分方程,使噪声沿着连续的生成轨迹演化为数据。 在此理论框架之上,专著进一步讨论了: * 可控生成的引导机制(guidance for controllable generation); * 高效采样的高级数值求解方法(advanced numerical solvers for efficient sampling); * 受扩散启发的流映射模型(diffusion-motivated flow-map models),这些模型能够直接学习生成轨迹上任意时刻之间的映射。
本书面向具有基础深度学习背景的读者,旨在提供一个清晰、概念化且数学上扎实的扩散模型理解框架。它系统阐明了扩散模型的理论基础,解释了不同公式化形式背后的思想逻辑,并为进一步研究提供稳固的理论支点。该专著既可作为研究者的系统参考资料,也可作为初学者进入这一快速发展的研究领域的易懂入门读物。