动量迭代式对抗噪声生成方法 | VALSE2018年度杰出学生论文奖

2019 年 5 月 14 日 深度学习大讲堂

编者按：深度模型的精度和速度长期以来成为了评价模型性能的核心标准，但即使性能优越的深度神经网络也很容易被对抗样本攻击。因此，寻找到合适的对抗攻击策略可有效提升模型本身的鲁棒性。本文作者提出了基于动量的迭代算法来构造对抗扰动，有效地减轻了白盒攻击成功率和迁移性能之间的耦合，并能够同时成功攻击白盒和黑盒模型。

一、研究动机

深度神经网络虽然在语音识别、图像分类、物体检测等诸多领域取得了显著效果，但是却很容易受到对抗样本的攻击。对抗样本是指向原始样本中添加微小的噪声，使得深度学习模型错误分类,但是对于人类观察者来说，却很难发现对抗样本和正常样本之间的区别。

生成对抗样本的场景主要分为两种：白盒攻击和黑盒攻击。对于白盒攻击，攻击者知道目标网络的结构和参数，可以利用基于梯度的方法构造对抗样本。由于所构造的对抗样本具有一定的迁移性能（即对于一个模型构造的对抗样本也可以欺骗另一个模型），所以其可以被用来攻击未知结构和参数的黑盒模型，即黑盒攻击。

然而，在实际的应用过程中，攻击一个黑盒模型十分困难，尤其对于具有一定防御措施的模型更加难以黑盒攻击成功。造成此现象的根本原因在于现有攻击方法的白盒攻击成功率和迁移性能之间的耦合与限制，使得没有能够同时达到很好的白盒攻击成功率和迁移性能的方法。

具体地，对于一步迭代的快速梯度符号算法（FGSM），虽然这种方法构造的对抗样本的迁移性能很好，其攻击白盒模型的成功率受到了很大的限制，不能有效地攻击黑盒模型；另一方面，对于多步迭代的方法(I-FGSM)，虽然可以很好地攻击白盒模型，但是所构造对抗样本的迁移性能很差，也不能有效地攻击黑盒模型。所以我们提出了一类新的攻击方法，可以有效地减轻白盒攻击成功率和转移性能之间的耦合，同时成功攻击白盒和黑盒模型。

图1:对抗样本示例

二、研究方案

2.1 问题定义

生成对抗噪声本质上可以归结为一个优化问题。对于单个模型f(x)，攻击者希望生成满足L_∞限制的无目标对抗样本，即生成对抗样本x^*，使得f(x^*)≠y且‖x^*-x‖_∞≤ϵ，其中y为真实样本x所对应的真实类别、ϵ为所允许的噪声规模。所对应的优化目标为

其中J为模型的损失函数，通常定义为交叉信息熵损失。

2.2 相关工作

为了求解此优化问题，Goodfellow等人首先提出了快速梯度符号法（FGSM）,仅通过一次梯度迭代即可以生成对抗样本：

此方法白盒攻击成功率较低。为了提升成功率，迭代式攻击方法（I-FGSM）通过多步更新，可以更好地生成对抗样本，即

此方法虽然白盒攻击成功率较高，但是迁移能力较差，也不利用攻击其它的黑盒模型。

2.3 动量攻击算法

我们提出在基础的迭代式攻击方法上加入动量项，避免在迭代过程中可能出现的更新震荡和落入较差的局部极值，得到能够成功欺骗目标网络的对抗样本。由于迭代方法在迭代过程中的每一步计算当前的梯度，并贪恋地将梯度结果加到对抗样本上，使得所生成的对抗样本仅能欺骗直接攻击的白盒模型，而不能欺骗未知的黑盒模型，在实际的应用中受到了很大的限制。

在一般优化算法中，动量项可以加速收敛、避免较差的局部极值、同时使得更新方向更加平稳。受到一般优化算法中动量项的启发，在生成对抗样本的迭代方法中加入动量项，可以使得生成的对抗样本不仅能有效欺骗白盒模型，也能欺骗未知的黑盒模型，达到更好的攻击效果。

基于动量的迭代式快速梯度符号算法（MI-FGSM）可以用来解决上述问题，算法为：

假设以上迭代过程共迭代T轮，为了满足限制‖x^*-x‖_∞≤ϵ，定义每一步的步长α=ϵ/T。μ为动量值g的衰减系数。通过以上迭代过程对一个真实样本x逐步添加噪声，可以得到能够欺骗模型f(x)的对抗样本x^*，同时x^*也能转移到其他未知模型上，导致多个模型发生分类错误。此方法可以被扩展到有目标攻击和基于L_2度量下的攻击。

2.4 攻击多个模型

为了进一步提升黑盒攻击的成功率，我们可以同时攻击多个白盒模型，以提升对抗样本的迁移性能。对于K个不同的模型，目标是使得构造的对抗样本同时攻击成功所有K个模型。为了达到上述目标，首先将K个模型的未归一化概率值进行加权平均，即

其中l_k (x)为第个模型的未归一化概率值（即网络最后一层softmax的输入）；w_k为第k个模型的权重，满足w_k≥0且∑_(k=1)^K▒w_k =11。由此得到了一个集成模型，定义此模型的损失函数为softmax交叉信息熵损失：

由此可以利用之前所述的基于动量的生成对抗样本的方法对此集成模型进行攻击。

三、算法流程图

算法流程图如图2所示。输入一张原始的图片，其可以被图片分类模型正确分类。通过所提出的基于动量的迭代算法构造对抗扰动并添加到原始样本上，得到了对抗图片，会被图片分类模型所错分。

图2：算法流程图

四、实验结果

4.1 数据集

为了测试所提方法的有效性，针对图片分类任务进行对抗样本生成。首先选取7个模型作为研究对象，它们分别为Inception V3 (Inc-v3)、Inception V4 (Inc-v4)、Inception Resnet V2 (IncRes-v2)、Resnet v2-152 (Res-152)、Inc-v3ens3、Inc-v3ens4和IncRes-v2ens。这些模型均在大规模图像数据集ImageNet上训练得到，其中后三个模型为集成对抗训练得到的模型，具备一定的防御能力。本实施选取ImageNet验证集中1000张图片作为研究对象，衡量不同攻击方法的成功率，进而说明其攻击性能。

4.2 评测指标

这里我们选取攻击成功率作为评测指标，定义为原本可以被分类正确的图片中，添加了对抗噪声后被预测为错误标签的图片占的比率。

4.3 实验结果

基于所提方法，我们攻击了Inc-v3、Inc-v4、IncRes-v2和Res-152四个模型，并利用所产生的对抗样本输入所有的7个模型中，测试攻击的效果。为了比较所提出方法的效果，我们还选取了FGSM，I-FGSM两个方法作为基准方法进行比较。实验结果如表1所示：

表1：攻击成功率结果

从表中可以看出，所提出的MI-FGSM方法可以显著地提升黑盒攻击的成功率，相比于I-FGSM，我们的方法可以将攻击成功率提升了一倍左右。我们还展示了集成攻击的效果。实验结果如表2所示。

表2：集成攻击结果

从结果中可以看出，所提出的在模型未归一化概率值进行加权平均的方法效果最好。

五、结论与展望

本篇论文证明了深度学习模型在黑盒场景下的脆弱性，也证明了基于动量的攻击算法的有效性。实验中可以看出，所提出的方法对于具有防御机制的模型的攻击效果较差。我们在后续工作中还提出了平移不变的攻击算法（“Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks”， CVPR 2019， Oral），可以将防御模型的攻击效果进一步提升。

代码：

https://github.com/dongyp13/Non-Targeted-Adversarial-Attacks

论文：

Boosting Adversarial Attacks with Momentum.

https://arxiv.org/pdf/1710.06081.pdf

编辑：杨茹茵

--end--

该文章属于“深度学习大讲堂”原创，如需要转载，请联系 ruyin712。

作者简介：

董胤蓬，清华大学计算机系人工智能研究院二年级博士生，导师为朱军教授。主要研究方向为机器学习与计算机视觉，聚焦深度学习鲁棒性的研究，先后发表CVPR、NIPS、IJCV等顶级国际会议及期刊论文十余篇，并作为Team Leader在Google举办的NIPS 2017人工智能对抗性攻防大赛中获得全部三个比赛项目的冠军。曾获得CCF优秀大学生，国家奖学金，清华大学未来学者奖学金、CCF-CV学术新锐奖等。

往期精彩回顾

何晖光：多模态情绪识别及跨被试迁移学习

Deep Unrolling：深度网络与传统模型之间的桥梁

华科白翔教授团队ECCV2018 OCR论文：Mask TextSpotter

【CVPR2018】物体检测中的结构推理网络

中科视拓深度学习实战班来杭州了！

还不知道GAN？小心落伍于这个AI时代

高新波：异质图像合成与识别

欢迎关注我们！

深度学习大讲堂是由中科视拓运营的高质量原创内容平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

中科视拓（SeetaTech）将秉持“开源开放共发展”的合作思路，为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务，帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。

中科视拓目前正在招聘：人脸识别算法研究员，深度学习算法工程师，GPU研发工程师， C++研发工程师，Python研发工程师，嵌入式视觉研发工程师，运营经理。有兴趣可以发邮件至：hr@seetatech.com，想了解更多可以访问，www.seetatech.com

中科视拓

深度学习大讲堂

点击阅读原文打开中科视拓官方网站

登录查看更多

相关内容

对抗样本

关注 13

对抗样本由Christian Szegedy等人提出，是指在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本，能够导致神经网络模型给出一个错误的预测结果。实质：对抗样本是通过向输入中加入人类难以察觉的扰动生成，能够改变人工智能模型的行为。其基本目标有两个，一是改变模型的预测结果；二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变，具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

8+阅读 · 2020年5月4日

【中科院自动化所】视觉对抗样本生成技术概述

专知会员服务

37+阅读 · 2020年4月15日