对抗训练理论分析：自适应步长快速对抗训练

2022 年 6 月 23 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 鬼谷子

引言

该论文是关于对抗训练理论分析性的文章，目前对抗训练及其变体已被证明是抵御对抗攻击的最有效防御手段，但对抗训练的过程极其缓慢使其难以扩展到像 ImageNet 这样的大型数据集上，而且在对抗训练的过程中经常会出现模型过拟合现象。在该论文中，作者从训练样本的角度研究了这一现象，研究表明模型过拟合现象是依赖于训练样本，并且具有较大梯度范数的训练样本更有可能导致灾难性过拟合。因此，作者提出了一种简单但有效的方法，即自适应步长对抗训练（ATAS）。

ATAS 学习调整与其梯度范数成反比的训练样本自适应步长。理论分析表明，ATAS 比常用的非自适应算法收敛得更快，在对各种对抗扰动进行评估时，ATAS 始终可以减轻模型的过拟合现象，并且该算法在 CIFAR10、CIFAR100和ImageNet 等数据集上实现更高的模型鲁棒性。

论文标题：

Fast Adversarial Training with Adaptive Step Size

论文链接：

https://arxiv.org/abs/2206.02417

背景知识

FreeAT 首先提出了一种快速对抗训练的方法，通过批量重复训练并同时优化模型参数和对抗扰动。YOPO 采用了类似的策略来优化对抗损失函数。后来，单步法被证明比 FreeAT 和 YOPO 更有效。如果仔细调整超参数，带随机启动的 FGSM（FGSM-RS）可用于一步生成对抗扰动，来训练鲁棒网络模型。ATTA 方法则是利用对抗样本的可迁移性，使用干净样本作为对抗样本的初始化，具体的优化形式如下所示：

其中，表示在第轮中第个样本生成的对抗样本。ATTA 显示出与 FGSM-RS 相当的鲁棒精度。SLAT 与 FGSM 同时扰动输入和潜在值，确保更可靠的性能。这些单步方法会产生灾难性的过拟合现象，这意味着模型对 PGD 攻击的鲁棒性精度会突然下降到接近 0，而对 FGSM 攻击的鲁棒精度迅速提高。

为了防止模型过拟合现象，FGSM-GA 添加了一个正则化器，用于对齐输入梯度的方向。另一项工作从损失函数的角度研究这一现象，发现模型过度现象是损失面高度扭曲的结果，并提出了一种通过沿梯度方向检查损失值来解决模型过拟合的新算法。然而，这两种算法都需要比 FGSM-RS 和 ATTA 更多的计算量。

论文算法

由之前的研究可知，对抗训练目标函数中内部最大化的步长对单步攻击方法的性能起着重要作用。过大的步长会将所有 FGSM 对抗扰动吸引到分类边界附近，导致灾难性过拟合现象，因此 PGD 多步攻击下的分类器对抗鲁棒性精度将降至零。然而，又不能简单地减小步长，因为如下图的第一张图和第二张图所示可以发现，增大步长可以增强对抗攻击并且能提高模型鲁棒性。

为了尽可能加强攻击并避免灾难性的过拟合现象，对于具有大梯度范数的样本，作者使用小步长来加强攻击防止模型过拟合现象；对于具有小梯度范数的样本，作者使用大步长来加强攻击。所以，作者使用梯度范数的移动平均值：

去调整在第轮中对于样本的步长。是的初始化，是动量平衡因子。与成反比例：

其中是预定义的学习率，是一个防止过大的常数。作者将自适应步长与 FGSM-RS 相结合，FGSM-RS 在内部最大化攻击中随机初始化对抗扰动。由上图的第三张子图可以发现，自适应步长不会发生过拟合现象。此外，自适应步长方法的平均步长甚至比 FGSM-RS 中的固定步长还要大，因此具有更强的攻击性和更好的对抗鲁棒性。

随机初始化限制了步长较小的样本的对抗扰动，从而削弱了对抗攻击的强度。结合之前的初始化方法，论文提出的方法 ATAS 不需要大的来达到整个范数球。对于每个样本，作者使用自适应步长并执行以下内部最大化以获得对抗样本：

其中是第轮的对抗样本，参数由样本来更新，具体公式如下所示：

与以前需要大量计算开销来解决灾难性过拟合现象问题的方法相比，论文提出的 ATAS 方法的开销可以忽略不计，ATAS 的训练时间与 ATTA 和 FGSM-RS 几乎相同。ATAS 的详细算法如下所示：

在 ImageNet 数据集上 ATAS 的详细算法如下所示：

作者分析论文中 ATAS 方法在范数下的收敛性，给定如下目标函数：

最小最大问题能被公式化为如下所示：

其中为在参数下的最优对抗样本。作者考虑最小最大优化问题是在凸凹和平滑的设定下，并且损失函数满足以下假设。

假设1 ：训练损失函数满足如下约束：

1）是凸函数并且在参数下是平滑的；和的梯度在范数满足如下公式：

其中：

2）是凹函数并且在每个样本平滑。在范数球内并且半径为。对于任意和，，并且输入梯度满足如下公式：

作者平均步参数轨迹得到近似最优点：

这是分析随机梯度方法的标准技术，收敛间隙：

上界为如下公式所示：

引理1：损失函数满足假设 1，目标函数有如下收敛间隙不等式：

证明：根据引理 1 公式的左侧可得如下不等式：

第一个和第三个不等式遵循最优性条件，第二个不等式使用 Jensen 不等式。在证明定理 1 和定理 2 时，有以下几个梯度符号：

ATAS 方法也可以表示为自适应随机梯度下降块坐标上升法（ASGDBCA），在步骤中随机选取一个样本，对参数应用随机梯度下降，对输入应用自适应块坐标上升。与 SGDA 不同，SGDA 在每次迭代中更新的所有维度，ASGDBCA 只更新的一些维度。ASGDBCA 首先计算预调节参数为：

则和可以被优化为：

ASGDBCA 和 ATAS 的主要差异为。为了证明 ASGDBCA 的收敛性，前置调节参数必须是非递减的。否则，ATAS 可能不会像 ADAM 那样收敛。然而，ADAM 的非收敛版本实际上在实际中对神经网络更有效。因此，ATAS 仍然使用作为预调节参数。

定理1：在假设 1 条件下，有和，则 ASGDBA 的界为如下公式所示：

证明： 令，在第步时，ASGDBCA 从中随机采样下标索引为的样本，于是则有：

令：

表示为样本的所有坐标预调整参数。将期望值置于右侧的之上，于是则有：

并且有：

与 SGDBCA 的证明过程类似，有如下推导过程：

将不等式从求和到，的上界表示为：

和：

与 SGD 相似，使用算术和几何均值不等式可知，当时达到最优，于是则有：

对于的第一项有：

其中表示的第个坐标系，因此对于

被假定，于是则有：

对于的第二项有：

其中表示中第个坐标。对项进行求和，的第二项的上界为：

的第三项的上界为：

因此则有：

组合以上不等式可知，ASGDBCA 的上界为：

使用算术和几何均值不等式可知，当时，上界可以达到最小值：

组合和，则可知 ASGDBCA 的上界为：

ATAS 和 ATTA 的非自适应版本的随机梯度下降块坐标上升的公式如下所示：

定理2 ：在假设 1 的条件下，常数学习率和，则 SGDBCA 的上界为如下所示：

证明： 令，在第步时，SGDBCA 从下标索引集合中随机采样出下标的样本并更新对抗扰动，则有以下不等式：

因此：

将以上不等式重新排序，则有：

相似的可以得到：

将以上两个公式左边部分求期望可以得到：

进而则有：

和：

考虑到和的凹凸性：

可以得到：

组合以上不等式可以得到：

更新，可以得到：

以上不等式可以重新排序为：

以上不等式两边同时除以，则有：

对项求和可得如下上界：

将以上不等式可以重新化简为：

使用算术和几何平均值可以得到，当和是，可以得到最优上界：

定理 1 和 2 表明 ASGDBCA 比 SGDBCA 收敛更快。当较大时，SGDBCA 和 ASGDBCA 中的间隔的第三项可以忽略不计。考虑到它们的第一项是相同的，主要区别是第二项中和

关于间隔界。它们的比率为如下所示：

Cauchy-Schwarz 不等式表明该比率始终大于 1。当具有长尾分布时，ASGDBCA 和 SGDBCA 之间的差距会变得更大，这表明 ATAS 的收敛速度相对更快。

实验结果

以下三个表格分别显示了不同方法在 CIFAR10、CIFAR100 和 ImageNet 数据集上的准确性和训练时间。需要注意的是，由于计算复杂性，作者没有足够的计算资源在 ImageNet 上执行标准对抗训练和 SSAT。作者使用两个 GPU 来训练 ImageNet 的模型，对于 CIFAR10 和 CIFAR100，作者在单个 GPU 上评估训练时间。从以下结果可以直观的发现论文中提出的方法 ATAS 提高了在各种攻击（包括 PGD10、PGD50 和自动攻击）下的分类模型的鲁棒性，并且可以发现在训练中避免发生模型灾难性过拟合现象。