本报告系统介绍了扩散模型(Diffusion Models)在现代生成式人工智能中的理论基础、训练与采样机制、模型结构、指导技术以及在图像、音频、文本等多模态任务中的应用。文中首先回顾生成模型的发展脉络,区分了显式概率建模(如自回归、流模型、VAE)与隐式建模(如GAN)。扩散模型被视为一种基于“迭代细化”(iterative refinement)的生成框架,通过逐步向数据添加噪声的前向过程与反向“去噪”过程实现生成,其本质可等价地理解为自编码器、深层潜变量模型、能量模型、基于SDE/ODE的流模型或深度RNN。 报告详细阐述了扩散模型的核心数学机制,包括噪声调度(noise schedule)、预测目标(预测 x0x_0x0、噪声 ϵ\epsilonϵ 或中间变量)、训练损失与采样步骤等关键要素。文件中还对比自回归生成(一步步生成)与扩散生成(逐步去噪)两大范式,指出扩散模型在图像生成领域效果卓越的重要原因源于其“近似频谱自回归”特性,即不同噪声层级天然对应不同空间频率,使训练目标在感知上更合理(低频权重更高)。 在如何控制扩散模型输出方面,报告对“分类器指导”(classifier guidance)与“无分类器指导”(classifier-free guidance)进行了深入解析,展示了在不同页图示中如何通过梯度或条件差分实现模型输出的“强化”与“引导”,从而在多样性与质量之间调节。 文件同时讨论扩散模型在离散数据(如文本)上的挑战与解决方案,包括 Continuous Diffusion for Categorical Data (CDCD) 框架、得分插值(score interpolation)、时间变换(time warping)等技术,并展示其与 BERT 结构之间的关联。此外,也介绍了扩散模型在音频生成、视频生成(Veo 3)、大型图像模型(Imagen 4)中的实际应用。 最后,报告还探讨了蒸馏(distillation)技术如何将多步扩散采样压缩为少步模型,以及迭代精炼如何突破传统深度网络无法训练超深图的限制,对比不同生成范式在语言和感知信号处理中的差异,并展望了未来可能由超大规模 VAE 等模型替代迭代式扩散框架的趋势。 总体来看,该报告全面展示了扩散模型的理论统一性、训练与采样实践、指导方法、模型架构发展、在连续与离散领域的扩展,以及其在当代生成式 AI 中的核心地位。