反事实解释和对抗性攻击有一个相关的目标:不管输出标签的特征如何,用最小的扰动翻转输出标签。然而,对抗性攻击不能直接用于反事实解释的角度,因为这种扰动被视为噪声,而不是可操作和可理解的图像修改。**在鲁棒学习文献的基础上,提出了一种优雅的方法,将对抗性攻击转化为有语义意义的扰动,而不需要修改分类器来解释。**所提出的方法假设,去噪扩散概率模型是优秀的正则化方法,可以在生成对抗攻击时避免高频和分布外的扰动。这篇论文的核心思想是通过扩散模型来构建攻击来完善它们。这允许研究目标模型,而不管其鲁棒性水平。广泛的实验表明,所提出的反事实解释方法在多个测试平台上比当前最先进的方法具有优势。