摘要——扩散模型(Diffusion Models, DMs)在图像生成、文本生成图像、文本引导图像生成等多种生成任务中已取得了最先进的性能。然而,DMs越强大,它们潜在的危害也越大。最近的研究表明,DMs容易受到各种攻击,包括对抗性攻击、成员推理、后门注入以及各种多模态威胁。由于众多预训练的DMs在互联网上广泛发布,这些攻击带来的潜在威胁对社会尤其具有危害性,使得与DM相关的安全问题成为一个值得深入研究的课题。因此,在本文中,我们对DMs的安全性进行了全面的综述,重点关注针对DMs的各种攻击和防御方法。首先,我们介绍了DMs的关键知识,包括五种主要类型的DMs:去噪扩散概率模型、去噪扩散隐式模型、噪声条件评分网络、随机微分方程以及多模态条件DMs。我们进一步综述了最近一系列研究,探讨了利用DMs脆弱性的不同类型的攻击。随后,我们全面回顾了用于减轻每种威胁的潜在对策。最后,我们讨论了与DMs相关的安全性面临的开放性挑战,并展望了这一重要领域的研究方向。
关键词——扩散模型,多模态威胁,扩散模型安全性,后门攻击,成员推理,对抗性攻击。
近年来,扩散模型(Diffusion Models, DMs)[1]–[11]在广泛的生成任务中展示了卓越的能力,在深度生成模型的其他类别中如生成对抗网络(GANs)[12]、变分自编码器(VAEs)[13], [14]和基于能量的模型(EBMs)[15]中树立了新的性能标杆。通常,DMs包括两个主要过程。前向(扩散)过程逐渐向原始数据中添加噪声,以逐步将数据分布扩散到标准高斯分布中。反向(生成)过程利用一个深度神经网络(通常是UNet [16]),来反向扩散,从高斯噪声中重构数据。凭借其令人印象深刻的潜力,DMs已被广泛应用于多个领域,包括计算机视觉 [17]–[28]、自然语言处理(NLP)[29]–[34]、音频处理 [35], [36]、3D生成 [37]–[42]、生物信息学 [43], [44]以及时间序列任务 [45]–[47]。根据扩散和生成过程的不同,DMs可以分为不同的类别。第一类受到非平衡热力学理论[1]的启发,包括去噪扩散概率模型(DDPMs)[1]–[4]。DDPMs可以被视为马尔可夫层次VAE,其中扩散过程被建模为具有多个连续VAE的马尔可夫链。每个扩散步骤对应于VAE的编码过程,而每个去噪步骤可以视为相应VAE的解码操作。另一方面,去噪扩散隐式模型(DDIMs)是DDPMs的一个变体,采用非马尔可夫的方法,使模型能够在去噪过程中跳过步骤,从而在一定质量的权衡下提高生成速度。另一类DMs是噪声条件评分网络(NCSNs)[6], [7], [10],其基于评分匹配[48]训练神经网络以学习真实数据分布的评分函数(即对数似然的梯度)。该评分函数指向训练数据所在的数据空间。因此,通过跟随评分,训练良好的NCSNs可以根据真实数据分布生成新的样本。这个过程也可以看作是一种去噪过程[49]。最后一个主要类别是基于评分的随机微分方程(SDE),它将DDPMs和NCSNs纳入一个广义形式中。前向过程通过SDE将数据映射到噪声分布,而反向过程则使用逆时间SDE[50]从噪声中生成样本。此外,交叉注意力技术[51]可用于通过多模态条件(如文本和图像)约束去噪神经网络,迫使去噪过程生成符合给定条件的结果。这引发了广泛的多模态生成任务,如文本生成图像和文本引导的图像生成[9]。尽管具有显著的潜力,DMs由于以下原因特别容易受到各种安全和隐私风险的影响:(i) 强大的DMs通常基于从多种开放资源收集的大规模数据进行训练,这些数据可能包含有毒数据或后门数据;(ii) 预训练的DMs在诸如HuggingFace1等开放平台上广泛发布,使得黑客更容易传播其操作过的模型。例如,通过操作训练数据和修改训练目标,攻击者可以将后门触发器嵌入DMs中以实施后门攻击[58]–[67]。因此,一旦在推理过程中向带有后门的DM输入触发器,它将始终生成攻击者指定的特定结果(例如,敏感图像或暴力文本)。即使在攻击者无法修改DMs参数的更安全设置下,他们仍可以构建DMs的输入以生成敏感内容,这被称为对抗性攻击[68]–[84]。在隐私方面,成员推理可以检测某个特定示例是否包含在DMs的训练数据集中。当训练数据高度敏感(例如,医学图像)时,这尤其危险。此外,DMs还用于各种安全应用中,如对抗性净化和稳健性认证,攻击这些应用中集成的DMs可能会使整个基于DM的安全系统失效[85], [86]。由于DMs受到广泛关注,并且各种基于DM的应用已被公众广泛使用,因此不可否认,DMs的安全性是一个重要的研究方向。然而,现有的DMs综述大多集中于其在架构改进、性能和应用方面的发展,而完全忽略了DMs的安全性。例如,文献[53]的作者综述了DMs的一系列算法改进,包括采样加速、扩散过程设计、似然优化和分布桥接方面的改进。此外,他们还回顾了DMs的各种应用,如图像/视频生成、医学分析、文本生成和音频生成。同样,综述[52]也讨论了DMs的应用和发展,特别关注高效的采样方法和改进的似然。此外,作者还深入探讨了DMs与其他深度生成模型类别如VAEs、GANs和EBMs之间的联系。在以应用为中心的综述中,也有多篇综述研究了基于DM的应用,包括计算机视觉[54]、NLP[55]、医学成像[56]和时间序列应用[57]。由于现有综述未探讨DMs的安全性方面,本文旨在填补这一空白,通过提供对该重要课题中最先进研究的系统和全面概述。通过分类不同类型的针对DMs的攻击并提出应对这些攻击的对策,我们希望本综述能为研究人员提供有益的指南,以探索和开发最先进的DMs安全方法。本文的贡献可以总结如下: