IBM披露深度图像分类模型健壮性研究新进展：别一味追求高准确率！

2018 年 8 月 12 日 AI前线

译者 | 马卓奇

编辑 | Vincent

AI 前线导读：一直以来，准确率都是衡量图像分类模型性能的唯一评价指标，ImageNet 比赛中也是如此。然而最近的研究发现，训练良好的深度神经网络在识别对抗样本时模型缺乏健壮性。如果给自然图像加入视觉上难以察觉的扰动，可以很容易地制作成对抗样本，从而误导图像分类器。为了解释健壮性和准确率之间的权衡关系，来自 IBM、MIT、京东等机构的研究人员使用多个健壮性衡量指标（包括 306 对模型之间的对抗实例的失真、成功率和可迁移性）对 18 个 ImageNet 模型进行了全面的基准测试，并从实验结果中得到了一些新的结论。AI 前线第 44 篇论文导读将对这项工作及其最新研究成果进行详细解读。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

一、介绍

图像分类是计算机视觉中的一个基本问题，是多种视觉任务的基础，如目标检测、图像分割、目标跟踪、行为识别和自动驾驶等。自从 2012 年的 ImageNet 挑战赛 AlexNet 模型取得重大突破，深度神经网络（DNN）已经成了这个领域的中坚力量。自此之后，出现了越来越深的 DNN 模型和越来越复杂的结构。尽管这些模型的识别率稳步上升，但是却没多少人注意到识别率上升的代价是健壮性的降低。

一般评价 DNN 健壮性的方法是通过对抗攻击，即生成对抗样本来误导网络。一般来说，对抗样本的生成越简单，DNN 的健壮性就越低。除了对抗攻击，神经网络健壮性也可以通过攻击不可知的方式进行评价，例如通过分析网络全局和局部的 Lipschitz 常数可以评估简单网络的健壮性。也可以通过使用极值理论来评估最小对抗失真的边界，可以用于任意神经网络。在本文中，我们通过使用特定攻击，以及攻击未知的方式来评价 DNN 的健壮性。

由于最近的 ImageNet 比赛在 2017 年结束，我们现在处于后 ImageNet 时代。我们将回顾 18 个 ImageNet 挑战赛中取得较好成绩的 DNN 模型。这些模型的尺寸、分类性能各不相同，分别属于 AlexNet、VGG 网络、Inception 网络、ResNet、DenseNet、MobileNet，以及 NASNet。我们主要关注以下两个问题：

提高模型分类准确度时是否需要损失健壮性？
影响 DNN 健壮性的因素有什么？

论文贡献

（1）经过测试大量深度图像分类器，我们发现单纯追求更高的分类精度，将会损失健壮性。2 范数与无穷范数对抗失真基本随模型分类器误差的对数函数线性变化。因此，测试误差很低的模型更易受到对抗样本的影响。我们建议 ImageNet 网络设计者应该通过我们的开放式准确率 - 健壮性 Pareto 边界来衡量模型的健壮性。

（2）同一类型的网络，例如 VGG、InceptionNet、ResNet 以及 DenseNet，都具有类似的健壮性属性。这也说明网络结构对健壮性的影响比模型尺寸更大。除此之外，我们发现当 ResNet、InceptionNet 和 DenseNet 网络变深时，无穷范数失真的健壮性也有所提高。

（3）由 VGG 网络生成的对抗样本可以很好的迁移到其他 17 个模型，而其他模型生成的对抗样本都只能在同一类模型内部迁移。有意思的是，这一发现给我们提供了一个将黑盒模型结构逆向工程的机会。

（4）这是首个将 18 个最流行的 ImageNet 模型的健壮性进行对比分析的综述型研究，提供了准确率与健壮性权衡的整体情况。从对抗样本可迁移性的角度来看，我们在 18 个 ImageNet 网络之间进行了全面的成对实验（306 对），是目前规模最大的实验。

二、实验设置

我们研究无目标攻击和有目标攻击。假设 x0 代表原始图片，而 x 代表 x0 的对抗图片。DNN 模型 F 输出一个类别标签（或者类别标签的概率分布）作为预测值。为了不失一般性，我们假设 F(x0)=y0，是 x0 的真实类标。对于无目标攻击，对抗图像 x 的标准是：x 接近于 x0，但是 F(x)¹y0。对于目标攻击，目标类别 t（t¹y0）和对抗图片 x 应该满足如下关系：（1）x 与 x0 相近，（2）F(x)=t。

深度神经网络结构

我们研究了 18 个深度图像分类模型的健壮性，分别属于 7 类网络结构。表 1 给出了这些模型的基本性质和结构参数。

表 1 18 个 ImageNet 模型的健壮性评测

健壮性评价方法

我们使用对抗攻击和对抗未知攻击方法来评价网络健壮性。我们首先用攻击算法生成每个网络的对抗样本，然后分析攻击成功率和对抗样本的失真。为了进一步研究对抗图像的可迁移性，我们将网络组成 306 对，对于每一对网络，我们进行迁移攻击，使用一个模型生成的对抗样本来攻击另一个模型。最后，我们计算 CLEVER 分数，来评测对未知攻击的网络健壮性。

对抗攻击方法：

FGSM（Fast Gradient Sign Method）：先进且有效的攻击方法。它只需要通过计算一次梯度就可以生成对抗样本 x：

Iterative FGSM：I-FGSM 解决了 FGSM 低成功率的问题。I-FGSM 可以看作是在一个无穷范数球面内的投影梯度下降方法。

C&W attack：将生成对抗样本问题转化为如下的优化问题：

其中 f(x,t) 是衡量 x 的预测类标和目标类标之间的距离的损失函数。在这项工作中：

Logit(x) 代表 x 在 logit 层的矢量表示，k 代表信任程度，较大的 k 能提升对抗样本的可迁移性。

目前 C&W 攻击方法是在小的 2 范数扰动中寻找对抗样本最好的方法。

EAD-L1 attack：该方法使用弹性网络正则项，l1 和 l2 范数的线性组合来惩罚原始样本和对抗样本之间比较大的失真：

对抗未知方法：

CLEVER：使用极值理论来估计一个最小对抗失真的边界。较高的 CLEVER 分数代表网络对于对抗样本较健壮。CLEVER 是对抗未知的攻击，能反映网络的内在健壮性，而不是在特定攻击下的健壮性。

数据集

我们使用 ImageNet 作为 benchmark 数据集。从 ImageNet 验证集中随机选择了 1000 张图像，用于生成对抗样本。对于每张图像，我们可以用随机目标进行目标攻击，也可以进行无目标攻击。

评价指标

DNN 模型的健壮性用以下四个指标来评价：

攻击成功率：对于无目标攻击，成功率是对抗样本的预测类标与真实值不同的比例。对于有目标攻击，成功率是指分类器将对抗样本分到目标类别的比例。不管是哪种攻击，更高的成功率表示模型更容易受到攻击影响，因此健壮性较低。

失真：我们用 2- 范数和无穷范数衡量对抗图像和原始图像之间的失真程度。2- 范数衡量两张图像之间的欧几里德距离，无穷范数衡量的是每个像素的最大变化绝对值。这两者均广泛应用于衡量对抗扰动。失真程度更大表示模型健壮性更高。

CLEVER 分数：对于目标攻击的每张图像，我们分别计算随机目标类别和最不可能的目标类别的 l2 CLEVER 分数。CLEVER 分数越高，模型越健壮。

可迁移性：对于非目标攻击，可迁移性定义为从一个模型（源）生成的对抗样本会被其他模型（目标）误分类的比例。我们将这个比例表示为误差率。误差率越高，则代表非目标攻击的迁移性更好。对于目标攻击，可迁移性定义为匹配率，也就是原模型中生成的对抗样本被目标模型误分为目标类别的比例。匹配率更高，则可迁移性更强。

三、实验

对抗攻击评价

我们对比了目标攻击在随机目标下的成功率，比较了 FGSM、I-FGSM、C&W 以及 EAD-L1 对所有 18 个模型的不同参数下的情况。如图 1 所示：

图 1 FGSM、I-FGSM、C&W 以及 EAD-L1 的攻击对比

对于目标攻击，FGSM 的成功率十分低（小于 3%）。更说明 FGSM 是一种弱攻击，并且需要迭代的攻击方法。图 1(c) 显示，只需要 10 次迭代，I-FGSM 就能在所有模型上达到十分好的攻击成功率。C&W 和 EAD-L1 也能达到几乎 100% 的攻击成功率。

对于 C&W 和 EAD-L1 攻击，增加自信度 K 会让攻击更难找到可行对抗样本。较大的 K 通常可以让对抗失真更普遍，并且提高可迁移性，但是通常以成功率降低且失真增加为代价。

健壮性 V.S. 准确率的线性扩展法则

这一章主要研究不同 ImageNet 模型的健壮性和准确率之间的关系，健壮性通过无穷范数和 2 范数失真，或者 l2 CLEVER 分数来度量。图 2 给出了失真 / 分数 V.S. Top-1 预测精度的散点图。

图 2 I-FGSM 攻击、C&W 攻击以及 CLEVER 分数在 18 个 ImageNet 模型上的健壮性与分类准确率曲线图

我们定义分类误差为 1- 准确率（1-acc）。通过将失真度与模型在 Pareto 健壮性 - 准确率边界的分类误差进行回归，我们发现失真与分类误差的对数呈线性关系：失真 =a+b*log(分类误差)。因此，如果我们单纯追求模型的低测试误差，那么模型的健壮性会受到损失。所以在设计新的图像分类网络时，我们建议设计者权衡准确率和健壮性之间的关系。

不同模型尺寸和结构的健壮性

我们发现模型结构是比模型尺寸更重要的影响因素。同一类网络具有类似的健壮性，即使他们的深度和模型尺寸不同。例如 AlexNet 有大约 6 千万个参数，但是其健壮性最强，而 Moblienet-0.50-160 虽然仅有 1 千 5 百万个参数，却很容易受到对抗攻击的影响。

我们也发现，在同一类模型内部，网络结构越深便能略微提高健壮性。

对抗样本的可迁移性

图 3 FGSM 攻击在 18 个 ImageNet 模型上的可迁移性

图 4 I-FGSM 攻击在 18 个 ImageNet 模型上的可迁移性

图 5 EDA-L1 攻击在 18 个 ImageNet 模型上的可迁移性

图 3、图 4 和图 5 分别显示了 FGSM、I-FGSM 和 EAD-L1 在所有 18 个模型中（306 对模型）的可迁移性热力图。热力图的第 i 行与第 j 行的值代表对抗样本代表源模型 i 生成的对抗样本能成功地转移到目标模型 j 的比例。热力图对角线上的值代表对应模型的攻击成功率。我们用成功率来衡量无目标迁移攻击，以及匹配率来衡量有目标迁移攻击。总的来说，无目标攻击的可迁移性大大高于有目标攻击的。

实验结论要点：

在无目标迁移攻击中，FGSM 和 I-FGSM 比 EAD-L1 有更高的迁移成功率，而 C&W 的成功率更低。

同样，在无目标迁移攻击中，对于 I-FGSM，更少的迭代次数能产生更好的迁移性。对于无目标 EAD-L1 迁移攻击，较高的 k 值能带来更好的可迁移性。

对抗样本的可迁移性有时是对称的。

我们发现 VGG16 和 VGG19 模型的可迁移性明显高于其他模型。因此 VGG 模型是提升黑盒可迁移性攻击的良好起点。

最近的网络有一些特点会限制对抗样本只能在同一类模型内部进行迁移。例如图 4 所示，使用 I-FGSM 在无目标迁移攻击时，对于 DenseNet、ResNet 和 VGG，同一结构不同深度的模型可迁移性达到了 100%，但是对不同结构的可迁移性则大大降低。

四、结论

这篇论文对 18 个 ImageNet 模型进行了大规模的对抗样本数据实验，主要关注 1- 范数、2- 范数以及无穷范数等攻击方法，以及攻击未知健壮性分数，CLEVER。结果显示准确率和健壮性之间有明显的折衷关系，一般情况下准确率的升高会带来健壮性的降低。我们发现了失真度量和误差率对数之间的线性扩展法则。据此我们推测，一味地追求高准确率模型很有可能会导致模型缺乏健壮性。我们也进行了全面的对抗攻击可迁移性分析，并且讨论了模型结构对健壮性的影响。

研究结论如下：

（1）线性扩展法则——2 范数和无穷范数失真指标会随分类误差的指数线性变化。

（2）模型结构是比模型尺寸更为重要的健壮性因素，而开放的准确率 - 健壮性 Pareto 边界可以作为 ImageNet 模型的衡量标准。

（3）对于相似的网络结构，增加网络深度能够略微提升无穷范数失真的健壮性。

（4）VGG 模型具有较高的对抗迁移性，而大部分从一个模型中制作的对抗样本只能在同类模型中迁移。

我们认为这一发现能够为其他计算机视觉任务，例如目标检测和图像理解的模型健壮性和对抗样本构建提供新的思路。

五、补充实验

我们提取了被 18 个模型均能正确分类的图像（共 327 张），然后给出了 C&W 攻击和 I-FGSM 攻击中他们的准确率 - 健壮性示意图：