【NeurIPS 2023】从图像频域长尾分布视角探索视觉模型鲁棒性

一个共有的认知是深度视觉模型（例如CNN、ViT）的结构与人眼视觉系统(视网膜、视觉皮层)的构成存在较大的鸿沟，这导致了两者获取自然界图像信息的方式存在差异。其中在完成视觉任务的性能上表现为深度视觉模型在许多下游任务上已经达到了超过人的泛化性（例如在ImageNet上的分类任务），但同时也表现出了人眼所没有的安全性问题（例如对抗样本）。在上述矛盾下，我们试图从自然图像信号的频域空间探索视觉模型的利用机制。在上一篇工作中[链接]，我们从模型泛化性角度发现了CNN模型对频域信息利用的偏见现象。基于对偏见现象产生原因的探索，在本篇工作中，我们挖掘了图像频域空间天然存在的长尾特性并联系讨论了模型的鲁棒性问题。论文题目：Revisiting Visual Model Robustness: A Frequency Long-Tailed Distribution View 本文作者：林致宇、高逸飞、杨云帆、桑基韬（通讯作者）代码链接：https://github.com/zhiyugege/Frequency-Long-Tailed-Investigation

1、引言

在图像信号处理方面，深度视觉模型和人类视觉系统（HVS）之间的差异使模型在视觉基准上优于HVS。然而，值得注意的是，大多数视觉模型缺乏HVS所表现出的鲁棒性。具体来说，视觉模型的泛化进步可以部分解释为利用了人类无法察觉的信息，如高频分量（HFC）。此外，正如在对抗性样本现象中观察到的那样，模型的对抗脆弱性也与这些信息密切相关。这两种条件的共存产生了一个被广泛讨论的假设：模型的脆弱性源于对图像中难以察觉的高频信息的利用。

研究现状

基于上述假设的一系列工作中，我们发现了一个普遍存在的局限：对于回答什么是高频信息，现有工作依赖于人眼观察的结果进行定性分析，而没有进一步深入研究频域分量的统计特性。进而产生了以下两个问题：

（i）频谱的划分直观地基于手动设置的半径，导致不同数据集和模型的结论不一致; (ii)对高频利用率的理解是有限的。例如，提高模型鲁棒性通常涉及抑制对高频的学习，这与促进高频利用以提高泛化性能形成矛盾。

频域长尾分布特性的启发

具体来说，图像的功率谱密度自然遵循幂律分布，其中少数低频段占频谱功率的大部分，而大量高频带保持低功率分布。这一新认识鼓励我们重新审视高频分量在深度长尾学习指导下解决模型鲁棒性问题的重要性。在长尾问题中，我们关注到尾部的两个特性：（i）由于尾部的数量少，模型往往少/不关注尾部。直觉上，频域的长尾特性也存在类似现象，这启发我们探究模型对于高频分量的欠学习现象。（ii）尾部确保数据完整性和多样性以及捕获罕见事件等优点。启发将模型的尾部学习行为与泛化性和鲁棒性建立联系，并提出鼓励模型更好地利用高频分量。

我们的贡献

（1）To the best of our knowledge，我们是第一个提出关注图像样本粒度的长尾问题，特别是在频域中。这种新颖的视角为分析和改进模型性能提供了见解。（2）我们重新审视了高频分量与模型鲁棒性之间的关系，揭示了欠学习现象及其与高敏感性和低泛化性的关系。为了解决准确性和鲁棒性之间的权衡，我们建议增强高频学习。（3）通过定义频域熵来解释欠学习行为。从最大熵原理中汲取灵感，我们提出了一种简单而高效的光谱采样策略（BaSS）来改善模型的欠学习行为。通过将 BaSS 与其他训练范式（如对抗训练和AugMix）相结合，模型可以在准确性和鲁棒性之间实现更好的权衡。综合实验和分析验证了该方法的有效性。

2、频域长尾分布

2.1 符号定义

我们将二维离散傅立叶变换(简写：DFT) 作用在图片以得到图像频谱 . 没有特别说明，最低频位于频谱中心. 我们定义为频谱分量，其中和 . 其中表示傅立叶基函数，表示频谱位置到频谱中心的欧式距离，该值越大表明所在频段越高。在本文中，频谱密度(简写：)通过在频谱上选定频率半径并计算径向积分得到. 具体过程见下式. 其中表示频带到频谱中心的欧式距离,

2.2 频域长尾问题的定义

简单来说，我们受到长尾分布中二八定律（帕累托法则）的启发，将占据频谱总能量80%的位置定义为头部低频分量，剩余20%能量的位置定义为尾部高频分量。在频域长尾模型中，轴得到物理意义为第个频带，轴的物理意义为第个频带的能量占据总能量的比例 . 因此, 图像中的低频分量（LFC）可形式化定义为：高频分量（HFC）可形式化定义为：我们从长尾模型的角度对频率特征的统计总结如下：（i）头部由少数低频带组成，占频谱能量的大部分，语义和信息密度高;（ii）尾部由大量高频带组成，但保持低功率分布。这部分包括高频语义信息（例如纹理）以及人类无法察觉的信息。

3、探索和解释模型的对抗脆弱性：频域长尾视角

**动机：**视觉模型已经证明了学习频率信息的能力。直观地看，模型的行为可能会受到频率中长尾特征的影响，这在以前的研究中尚未得到充分探索，对于频域长尾问题的探索对提高视觉任务中的模型性能至关重要。

3.1 模型在 HFC 上的欠学习行为

在本小节中，我们将探讨有关模型对频率分量的学习行为。具体来说，我们可视化和分析了LFC和HFC上分类器的loss landscape。如下图所示。

讨论一：欠学习现象。图（b）表明，LFC上的损失景观呈现出良性特征：模型θ周围的参数空间相对平坦且接近局部最小值，这表明模型已精确收敛在LFC上。相比之下，图（a）所示的HFC损失情况在某些区域表现出显著的非凸性。可以看出，模型θ位于景观的陡峭区域，当沿梯度方向（即垂直于等高线）移动时，损失迅速减少。此外，在图（a）的左下角区域，我们还观察到远离当前模型的较好的局部最小值。这些观察结果表明，该模型仍有可能提高其学习HFC的能力。 * 讨论二: HFC的泛化性与收敛情况的正相关。最近的研究证实，与LFC相比，模型对HFC的泛化能力较低。同时，忽略HFC会导致数据分布的表示不准确，导致模型泛化率下降。结合上述模型对HFC收敛性的观察，制定和采用减轻或消除HFC拟合不足的策略至关重要，因为它对增强模型泛化有很大贡献。

3.2 重新审视HFC和模型鲁棒性的关系

动机一：标准训练分类器在HFC中仍然表现出显著的损失值，并且相对于高频可能具有较大的梯度。 * 动机二：在长尾理论的背景下，尾部通常代表特殊或极端情况，因此更容易受到罕见事件的影响，这使得HFC对于评估和分析模型鲁棒性至关重要 * 然而，现有工作对于关系的验证结论不统一：对于模型的脆弱性归因于HFC的假设，不同工作的结论在不同的数据集和模型中并不一致。我们将不一致的潜在原因一部分归因于HFC的定义，一部分归因于验证方法不鲁棒。

**模型对于HFC的高敏感性

对此，我们将损失的梯度投影在输入图像的不同频域方向。模型对于不同频域分量的敏感性由不同频域方向的梯度强度（投影的坐标大小）来衡量。我们获取所有图像的投影情况,并使用核密度估计(KDE)估计不同等级强度的频率方向分布。我们分别分析了 CIFAR10、 Tiny-ImageNet 和 ImageNet的结果，如下图所示。

从第一行，我们观察到不同频段的梯度强度分布不平衡，并且不平衡的程度十分明显，表现出类似的长尾分布。第二行的结果表明，高幅度梯度中频率半径的密度峰值主要集中在尾部高频（即由深色曲线表示）。这些观察结果清楚地证明了 HFC 与模型脆弱性之间的关系，表明 HFC 中的扰动更容易导致模型出现错误。在第二行所示的 ImageNet 结果中，我们注意到一个特殊现象，即头部区域中也存在较大的梯度幅度。这可能是由于宽频谱范围导致头部区域出现类似的漏洞。不过，这种现象并不影响我们结论的一致性。它间接表明解决 ImageNet 数据集的鲁棒性是一项更具挑战性的任务。

3.3 导致欠学习现象产生的原因

在深度长尾学习中,缺乏足够的关于尾部类别的可推广信息,直接导致模型出现偏差行为。类似的现象启发我们,在频率长尾问题中,从信息理论的角度来解释尾部拟合不足的问题。

**HFC的信息量远少于LFC

为了定量描述不同频域分量的信息量，我们提出了频谱熵的定义。首先从频域空间理解图像特征组成：频谱能量的数值差异反映了不同频域分量在进行全局特征统计时的产比。如果把对一张图像的任意位置做一次观测为一次随机事件，观测到的频域信息为随机事件的结果。我们将图像中的不同频域模式建模为离散随机变量（最大取值为,最小取值为）。直观上理解，在一张自然图像上，低频模型有更大概率被观测到（如颜色），而高频模式（如边缘）只存在于图像的少数区域。鉴于自然图像的频谱密度遵循幂律分布,密度函数可以计算并归一化如下:。根据香农熵的计算方式，我们有如下定理：对于任何自然图像 , 表示频带的阶数，因此频谱熵为: , 其中 . 同时有, and . 上述定理表明频带和频谱熵之间存在反比关系，以α阶递减。这表明尾部的高频带比头部的低频带包含的信息要少得多。区别于测量图像样本数量，我们提供了一种从频域角度测量图像信息的新方法，解释了模型对低信息数据的学习不足行为。该定理还表明，高分辨率数据（如 ImageNet）在尾部通常更加缺乏有效的可推广信息。这一发现与图1结果一致，该模型无法在ImageNet的超高频范围内生成梯度分量。

**平衡的频谱熵有利于解决欠学习现象

从最大熵原理理解泛化性和鲁棒性：模型的对抗鲁棒性和泛化性本质上都是衡量模型对训练集中没有出现过的样本的分类能力。在不同测试场景中，未知样本可分为与训练集iid和ood两类，泛化性通常是对未知iid样本的分类能力；而对抗鲁棒性是ood问题中的一个特例，未知样本特指在输入上经过微小扰动后的噪声样本，例如对抗样本。提高模型对未知样本分类能力最有效的方法是进行数据增强，例如通过向训练集中添加对抗样本以提高模型的对抗鲁棒性。 * 数据增强策略符合最大熵原理：探究数据增强有效性的背后原因可以从最大熵理论解释。最大熵理论指出，在获取已知部分知识的前提下，（对于训练过程来说，这部分知识为训练集样本），对于未知样本最合理的推断通常符合已知知识最不确定的推断。直观来理解，我们需要增强已知知识的随机性来应对任何未知的情况，而通常增加随机性的方式是通过选择熵值最大的概率分布。数据增强算法则通常通过设定随机参数并进行多种增强方式的组合对训练样本进行变换，增加了样本的随机性以提高训练集的信息量，符合最大熵原理所指出的能提高对未知样本的推断能力。 * 平衡的频谱熵分布符合最大熵原理：在上节我们确定了图像频域分量的信息熵，由最大熵原理可以得出如下信息熵值最大的分布：。这表明,具有平衡信息的均匀分布在拟合未知分布时遵守最大熵原则。直观地看,这与尾类公平学习相对应,尾类公平学习在深度长尾学习中被广泛研究,以使用重新加权或重新采样等技术来改进尾类泛化。这一见解促使我们通过平衡采样策略重新分配光谱能量来解决 HFC 的拟合不足问题。

4、方法和实验

4.1 Balanced Spectrum Sampling (BaSS)

上节的分析启发我们通过平衡频谱来鼓励模型学习HFC, 然后在实际操作过程中存在以下挑战： * 挑战一：噪声成分通常存在于超高频部件中,已被证明对分类任务不太有利。此外,均匀分配噪声和其他频率成分可能会(i)放大噪声对模型学习的影响,以及(ii)将更少的能量分配给剩余的频段,两者都会对模型学习产生负面影响。 * 挑战二：图像中的特征(如空间像素和频谱密度)通常不能通过采样定理直接选择。因此,我们参考在空间域中采样图像像素的方法:(i)离散化从傅里叶变换获得的频谱相对应的图像特征;(ii)选择和组合来自不同区域的特征:我们选择一定的采样概率重新加权不同频段的特征,并通过逆傅里叶变换获得新图像。

为了解决上述两个挑战，我们提出以下采样概率：. 具体来说，我们采用对数函数来：（i）在头部和尾部的功率密度之间建立平滑的连接，减轻超高频分量对整体分布的影响，以及（ii）将头部的频谱功率值调整到合理的范围，同时减小头尾频带之间的功率差，总体上产生更均衡的分布。

4.2 BaSS的工作机理探索

**实验设置

具体来说,我们研究了两种使用平衡频谱图像的范式: (i)数据增强,其中每个训练图像由BaSS以的概率执行。(ii)新的数据集,其中训练集和测试集完全由采样图像组成。我们在CIFAR10数据集上进行了探索，将作用了BaSS策略的数据集命名为CIFAR10-B。三种评价指标作为模型性能的评估：（1）干净样本的准确率；（2）corruption robustness；（3）adversarial robustness。

**实验发现

**

重采样后的图像作为增强数据能缓解模型对HFC的欠学习现象(图4)。模型达到了泛化性-鲁棒性（扰动鲁棒性和对抗鲁棒性）的更好平衡（图3）。
CIFAR10-B 数据集上训练的模型在不同频域方向上具有更均衡的梯度分布。这表明，在面对对抗性攻击时，模型的漏洞并不集中在图像的高频方向。因此，对抗性攻击过程需要生成包含来自多个频域的模式的对抗性噪声。这一见解启发在对抗性训练过程中，我们使用 CIFAR10-B 数据集代替原始数据集。

4.3 BaSS与对抗训练结合

我们利用BaSS策略修改输入图像，并结合PGD-AT、TRADES和MART训练模型。

通过使用BaSS策略处理数据集，我们的方法在数据集和架构之间始终如一地实现了更好的鲁棒精度权衡。与自然训练相比，对抗性训练表现出更明显的数据饥饿。现有的防御方法能够提高泛化和鲁棒性性能，通常涉及在扩大的训练集上进行对抗性训练，这伴随着大量的训练开销。值得注意的是，BaSS策略几乎没有增加训练成本（包括训练时间和数据量），并取得了有竞争力的性能。这进一步证明了BaSS的有效性。

4.4 BaSS与AugMix结合

AugMix通过数据增强生成复杂多样的图像，提高了模型对不同类型扰动的鲁棒性。具体来说，对于原始数据、通过组合多个简单数据增强生成，然后在训练过程中对和应用一致性约束。实验通常涉及两个 AugMix 过程来获得和。为了验证我们增加数据信息的方法 BaSS 是否可以与 AugMix 方法结合使用，我们对其中一个增强的输入数据执行 BaSS 操作以获得，然后执行 AugMix 获得。模型训练过程限制、和的一致性。

如表所示，我们的方法进一步提高了AugMix的性能，在所有模型结构的泛化和鲁棒性之间实现了更好的权衡。不同类别的分布扰动通常具有自己的频域特征，因此导致现有防御方法（例如对抗训练和AugMix）偏向于某种类型的扰动模式。值得注意的是，我们的方法显著增强了模型在防御高频模式损坏方面的能力（例如，将噪声损坏鲁棒性提高约4%）。这一改进使模型能够实现更平衡的防御，表明我们的方法在学习HFC方面确实有所增强。

5、结论

在本文中，我们通过定义频域长尾问题，对高频分量（HFC）与模型鲁棒性之间的关系有了更深入的理解。观察和分析表明，（i）对HFC的高敏感性源于模型对HFC的欠学习行为，（ii）模型欠学习行为的原因是HFC的信息含量有限。基于这些见解，我们提出了一种平衡频谱采样策略（BaSS），该策略在与不同训练范式相结合时有效地改善了鲁棒性和准确性之间的权衡。我们目前的结果主要集中在图像分类任务上，同时我们相信为其他视觉任务开发新技术也是有益的。我们还希望这项工作能够从模型的角度激发未来的解释和防御方法，例如探索可以与BaSS策略一起使用的模型端改进。

成为VIP会员查看完整内容