扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

2022 年 11 月 19 日 专知

去噪扩散模型是生成模型的一种，近年来在各种深度学习问题中引起了广泛的关注。扩散概率模型定义了一个正向扩散阶段，在这个阶段中，输入数据通过添加高斯噪声在几个步骤中逐渐被扰动，然后学习反向扩散过程，从有噪声的数据样本中检索所需的无噪声数据。扩散模型因其强大的模式覆盖率和生成样本的质量而受到广泛赞赏，尽管它们已知的计算负担。利用计算机视觉的进步，医学成像领域也观察到对扩散模型越来越感兴趣。为了帮助研究者更好地理解这些模型，本综述对医学图像分析中的扩散模型进行了全面的综述。具体来说，我们首先介绍了扩散模型背后的坚实的理论基础和基本概念，以及三种通用的扩散建模框架，即扩散概率模型、噪声条件评分网络和随机微分方程。然后，我们对医学领域的扩散模型进行了系统的分类，并提出了基于它们的应用、成像方式、感兴趣的器官和算法的多视角分类。为此，我们涵盖了扩散模型在医学领域的广泛应用，包括分割、异常检测、图像到图像的翻译、2/3D生成、重建、去噪和其他与医学相关的挑战。此外，我们强调了一些选择的方法的实际用例，然后讨论了扩散模型在医学领域的局限性，并提出了满足该领域需求的几个方向。最后，我们在GitHub上收集了综述研究及其可用的开源实现。我们的目标是定期更新相关的最新论文。

https://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging

图1:在这个图中，我们展示了生成模型的变革及其背后的见解。(a)通用对抗网络(GAN)[1]是一种端到端管道，它以对抗方式训练生成器以生成鉴别器能够与真实数据样本区分的样本。(b)基于能量的模型(EBM)[2]，也称为非归一化概率模型，训练方式与GANs相同，但有两个主要修改。首先，鉴别器学习一个适当的基于能量的函数，该函数将数据样本映射到分布空间。其次，该生成器利用先验输入来提高样本生成性能。(c)变分自动编码器(VAE)[3]是一个独立的网络，它跟随编码器从数据样本到低维潜在空间的投影，并通过解码器路径对其进行采样生成。(d)归一化流(NF)[4]利用可逆流函数将输入转化为潜在空间，并生成具有逆流函数的样本。(e)扩散模型在连续的步骤中将噪声与输入混合，直到它成为一个噪声分布，然后在采样过程的每一步中应用逆向过程来中和噪声附加。

1. 概述

在过去十年的深度学习中，使用神经网络的生成模型是一股强大的力量。自生成模型出现以来，它在从图像[5,6]、音频[7,8]到文本、[9]和点云[10]等各个领域都产生了巨大的影响。从概率建模的角度来看，生成模型的关键定义特征是，它以这样一种方式进行训练，因此它的样本 x˜ ∼ pθ(x˜) 来自与训练数据分布x~pd(x)相同的分布。开创性的基于能量的模型通过定义状态空间上的非归一化概率密度来实现这一点;然而，这些方法在训练和推理过程中都需要马尔可夫链蒙特卡罗(MCMC)采样，这是一个缓慢的迭代过程[11]。随着可用数据集的空前激增，以及一般深度学习架构的进步，生成建模出现了革命性的范式转变。具体而言，三种主流生成框架包括生成对抗网络(GANs)[1]、变分自动编码器(VAEs)[12,3]和归一化流程[13](见图1)。生成模型通常包含在现实问题中需要采用的关键需求。这些要求包括(i)高质量采样，(ii)模式覆盖和样本多样性，以及(iii)快速执行时间和计算成本低的采样[14](参见图2)。生成模型通常在这些标准之间进行调整。具体来说，GANs能够快速生成高质量的样本，但模式覆盖率较差，容易缺乏采样多样性。相反，尽管在覆盖数据模式中看到了VAEs和归一化流，但它们存在低样本质量的固有属性。GANs由两个模型组成:生成器和鉴别器(discriminator)，它们相互竞争，同时使彼此更强。生成器试图捕获真实样本的分布，而鉴别器(通常是一个二进制分类器)估计来自真实数据集的给定样本的概率。它作为一个评价器，经过优化后可以从真实样本中识别合成样本。关于GANs的一个常见问题是它们的训练动态被认为是不稳定的，导致了模式崩溃、梯度消失和收敛[15]等缺陷。因此，提出更有效的变体也影响了GANs的研究方向[16,17]。变分自编码器(VAEs)通过最大化证据下界(ELBO)来优化数据的对数似然。尽管变分自编码器取得了显著的成就，但由于平衡问题[18]和变量崩溃现象[19]等理论和实践上的挑战，变分自编码器的行为还远远不能令人满意。基于流的生成模型是由一系列可逆变换构建的。具体地说，归一化流通过应用一系列可逆变换函数将简单分布转换为复杂分布，在这个函数中，人们可以使用变元定理获得最终目标变量的期望概率分布。与GANs和VAEs不同，这些模型明确地学习数据分布;因此，它们的损失函数就是负对数似然[20]。尽管设计可行，但这些生成模型有其特定的缺陷。由于基于可能性的方法必须构建一个归一化的概率模型，因此必须使用特定类型的体系结构(自回归模型、流模型)，或者在VAE的情况下，不直接计算生成的概率分布的替代损失，如ELBO。相反，由于GAN的对抗性损失的性质，GAN的学习过程本质上是不稳定的。最近，扩散模型[22,22]已经作为强大的生成模型出现，展示了计算机视觉的主要主题之一，因此研究人员和实践者可能会发现跟上创新的速度是一项挑战。从根本上说，扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据，然后学习通过反转这个噪声过程来恢复数据。

图2:生成式学习试验[14]。尽管GANs能够快速生成高保真样本，但其模式覆盖是有限的。此外，价值流和标准化流已被揭示具有很大的多样性;然而，它们的采样质量通常很差。扩散模型通过显示足够的模式覆盖和高质量的采样来弥补VAEs和GANs的不足。然而，由于它们的迭代性质，这导致了一个缓慢的采样过程，它们实际上是昂贵的，需要更多的改进。

迄今为止，扩散模型已被发现在各种各样的领域都很有用，从生成建模任务，如图像生成[23]、图像超分辨率[24]、图像嵌入[25]到辨别任务，如图像分割[26]、分类[27]和异常检测[28]。最近，医学影像界见证了基于扩散的技术的数量呈指数级增长(见图4)。如图4所示，大量研究致力于扩散模型在各种医学影像场景中的应用。因此，对现有文献的调查既有利于社区，也非常及时。为此，本综述旨在提供最新进展的全面概述，并提供这类模型在医学成像中的整体概述。对相关文献的彻底搜索显示，我们是第一个覆盖在医学领域利用的扩散基础模型。我们希望这项工作将指出新的路径，为研究人员提供路线图，并激发视觉社区进一步的兴趣，以利用医学领域的扩散模型的潜力。我们的主要贡献包括:

这是第一篇全面涵盖扩散模型在医学成像领域应用的综述论文。具体而言，我们将全面概述所有可用的相关论文(截止2022年10月)。
我们设计了医学界扩散模型的多视角分类，提供了扩散模型及其应用研究的系统分类。我们将现有的扩散模型分为三类:去噪扩散概率模型、噪声条件评分网络和随机微分方程。此外，我们将扩散模型的应用分为七个类别:异常检测、去噪、重建、分割、图像间翻译、图像生成和其他应用。
我们不将注意力局限于应用，并提供了一种新的分类法(见图4)，其中每篇论文都根据提出的算法以及相关的器官和成像方式进行了广泛的分类。
最后，我们讨论了挑战和开放问题，并确定了新的趋势，提出了关于扩散模型在医学领域的算法和应用的未来发展的开放问题。

论文的组织。在第2.1节中，我们详细概述了扩散模型背后的概念和理论基础，涵盖了三个具有相似基线定义的子类别。3.1至3.7节全面涵盖了扩散模型在几种医学成像任务中的应用，如图3所示，而3.8节提供了不同文献工作的任务特定的比较概述。最后，我们在第四部分中指出了扩散模型在医学成像领域的未来发展方向和面临的挑战。

2. 扩散模型分类法

在过去的几十年里，生成方法在医学成像中取得了重大进展。因此，已经发表了许多关于医学成像的深度生成模型的综述论文[29,30,31]。其中一些论文只关注特定的应用程序，而另一些则关注特定的图像模态。然而，关于扩散模型在医学成像中的应用还缺乏全面的研究。为此，在本调查中，我们设计了一个多视角的扩散模型，其中我们讨论了现有的文献，基于它们在医学领域的应用。尽管如此，我们并不将我们的兴趣局限于应用，而是描述了潜在的工作原理、器官和所提议的方法的成像方式。我们将进一步讨论这些额外的信息如何帮助研究人员尝试跨谱巩固文献。图4描述了本文的简要展望。