来自英伟达斯坦福给出了《去噪扩散模型》教程,值得关注!
基于分数的去噪扩散模型(扩散模型)已成功应用于各种应用,如文本到图像生成、自然语言生成、音频合成、运动生成和时间序列建模。扩散模型的进步速度令人惊讶。仅在2022年,扩散模型就已经应用于许多大规模文本到图像的基础模型,如DALL-E 2、Imagen、Stable Diffusion和eDiff-I。这些进展也推动了新的计算机视觉应用的发展,如解决逆问题、语义图像编辑、少样本文本反转、提示到提示编辑,以及将2D模型转换为3D生成。扩散模型已广泛应用于各种计算机视觉应用,并正成为主导的生成模型类别。这一流行在CVPR 2022上的扩散模型教程中也得到体现,该教程在YouTube上累计近60,000次观看,时间超过8个月。
尽管如此,自去年以来在扩散模型上有大量新的工作,我们认为很多对计算机视觉从业者至关重要。以下是一些值得注意的例子:Elucidated Diffusion Models(NeurIPS 2022最佳论文)提供了有关如何以最佳方式训练扩散模型的原则。最近的微分方程求解器如DPM-Solver(NeurIPS 2022口头报告)和DEIS在加速扩散模型的采样方面取得了显著进步。扩散反演技术如DreamFusion和Magic3d通过反转图像扩散模型实现文本到3D生成。文本反转和DreamBooth使得从少样本监督信号中进行文本到图像扩散模型的“个性化”。还有众多最近的工作将扩散模型应用于其他领域,如3D表示、视频和运动。鉴于进步的速度,我们认为在CVPR 2023上举办一次关注更多最新发展的扩散模型教程是至关重要的。
这个教程的主要目标是使扩散模型更容易被更广泛的计算机视觉受众接受,并介绍扩散模型的最新发展。与之前的教程不同,我们将简化对基础知识的讨论,并更加关注扩散模型的实际方法和应用。我们将介绍在扩散模型的训练和采样上的成功实践,并讨论扩散模型在计算机视觉领域启用的新应用。这些讨论也将重点关注2022年和2023年发布的最新研究进展。我们希望这第二次关于扩散模型的教程能吸引更多对这一主题感兴趣的计算机视觉从业者,以在这个激动人心的领域取得更多进步。