会员服务 ·

对抗攻击之利用水印生成对抗样本

2020 年 9 月 27 日 计算机视觉life

点击上方“计算机视觉life”，选择“星标”

快速获得最新干货

本文转自我爱计算机视觉

论文标题：Adv-watermark: A Novel Watermark Perturbation for Adversarial Examples

论文链接：https://arxiv.org/pdf/2008.01919.pdf

引言

对抗样本生成的方法有很多，但它们都是在原图像上添加对抗扰动。本文提出的生成对抗样本的的方法很有趣，它是利用水印的不可察觉性，在水印上做文章从而生成对抗样本，即在干净图像中添加有意义的水印也可以攻击深度神经网络模型。如下图所示是分别是字母水印对抗样本和logo水印的对抗样本。

1.论文的贡献

本文的贡献可以归结如下三点:

作者提出了一种新的对抗样本算法Adv-watermark。水印同时具有水印特性（版权保护）和对抗样本的功能（导致训练好的模型误分类），需要注意的一点在于除了水印区域并没有其它的对抗扰动。
作者提出一种基于Adv-watermark的优化算法论文称为BHE。该优化方法采用基于种群的全局搜索策略方式生成对抗性样本。
实验结果显示，当水印大小为宿主图像大小的4/9（个人感觉扰动的像素过多，有点违背对抗样本的定义）时，它可以获得97%以上的攻击成功率。水印大小是宿主图像大小的1/16，也可以达到65%左右的攻击成功率。

2.算法介绍

2.1对抗水印

论文中使用除了R，G，B以外还有alpha共四个混合通道来生成对抗水印，通道是指背景图像中前景区域的透明度。论文中用表示alpha通道的值，表示尺寸为的宿主图像（称为宿主图片很准确即为无对抗扰动的图片），表示尺寸为的水印图像，表示生成的图像，当 , 时，其生成对抗水印公式为：

当 , 时，计算公式为：

其中表示图像x，下标，为表示像素位置，，表示水印图像嵌入的位置。作者不仅使用了图像水印，而且还使用了文本水印。

对于文本水印，首先将文本转换为图像，然后对其进行处理。

对于图像水印，使用了加州大学伯克利分校、芝加哥大学、麻省理工学院、剑桥大学和斯坦福大学这几所名校的标志水印。上面公式很好理解，如下图所示为上述原理和公式的图示。

2.2问题凝练

论文中将对抗扰动伪装成水印，以实现隐蔽性，并且对抗样本的生成只与水印的位置和透明度有关。对抗水印图像的生成可以形式化为一个有约束的优化问题。假设宿主图像为，分类模型为，的正确分类类别为，其中是属于类的概率，同时设为水印图像，为生成水印函数。它将水印图像嵌入到宿主图像的位置，，和依赖于，，。

在无目标攻击的情况下，可以将生成对抗样本的目标转化为寻找最优解，具体的优化公式如下所示：

该问题涉及两组参数，第一组参数是水印在宿主图像中的位置；第二组参数是水印的透明度。在宿主图像中嵌入可看作是一个实际扰动的对抗性水印，可以对局部进行修改主机映像的信息。对抗性水印扰动允许干净图像成为对抗样本。

对抗水印在不影响图像视觉效果的前提下，干扰决定图像分类的重要局部区域，攻击训练良好的分类模型。如下图所示为梯度加权类激活映射生成的热力图，可以清楚地看到Resnet101将输入图像预测为相应的正确类。

将对抗水印嵌入到图像中，可以改变生成的热图上概率分布。其中图中的第一行是原始图像（通过Resnet101正确分类）及其对应的热力图，下排是带有可见水印的对抗性图像及其对应的热图。

2.3优化算法BHE

论文中提出了一种新的优化算法为BHE。该方法是一种启发式随机搜索算法，可用于求解多元函数的全局最小值。如下图所示，BHE包括四部分，本文接下来会依次展开说明。

BHE是一种基于群体进化的优化算法，个人感觉BHE这就是一种普通的粒子群算法，适合求解非凸函数的最优解或者是局部最优解。每个解决方案都是一个群体的个体。其中、和元素被认为是其基因。

设表示第代人口中的第个个体，并且表示的第个基因。所以会有如下公式：

在该公式中，为初始群体中第个个体的第个基因，为第个基因的最小值，为第基因的最大值。

Basin Hopping是一种随机优化算法。在每次迭代过程中，BH生成一些随机扰动的新坐标，然后找到局部极小值，最后根据最小函数值接受或拒绝新坐标，具体的计算公式如下所示：

下图给出了BHE算法的具体流程：

3. 实验结果

该论文的实验量很大，从各个角度对论文中所提出的算法进行评估。下表为图像水印和文本水印的平均攻击成功率。可以看出论文中所提出的BHE 可以获得较高的攻击成功率。对于大学标志水印，当水印大小设置为宿主图像大小的4/9时，攻击成功率可达 97% 左右。当水印大小设置为宿主图像大小的1/16 时，攻击率也可以达到 69% 。

下表为不同水印的攻击结果比较。可以看出在限制了攻击区域情况下，作者所提出的攻击方法也能获得比较不错的效果。

下表为黑盒攻击方法攻击成功率的，作者所提的攻击方法可以获得平均攻击成功率高达88%，是所有攻击方法里效果最好的。

下表为图像防御方法的比较，将生成的对抗样本、缩放比例为1/4的“ACMMM2020”图像水印和字体为“28”的红色文本水印注入到原始图像数据集中，并分别对它们重新训练了三个Resnet101，可以看出用该对抗样本进行对抗训练的模型具有更强的鲁棒性。

下图为各种电视台标识的对抗样本，其中原始的类标签是黑色的，而对抗样本的类标签是红色的。将logo的嵌入位置限制在主机图像的右上角，然后使用该论文提出的方法进行生成，可以看出对抗水印在物理世界中更为现实和常见。

下图为对抗水印和正常水印的比较图。红色曲线表示对抗水印，蓝色曲线表示正常水印。可以看出红色曲线是随机选取的30幅带有对抗性水印的图像的平均结果，蓝色曲线是30幅具有正常水印的相同图像的平均结果。很明显，水印扰动随着层次的增加而逐渐增大。

目前还未发现该文有开源代码。

从0到1学习SLAM，戳↓

视觉SLAM图文+视频+答疑+学习路线全规划！

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

投稿、合作也欢迎联系：simiter@126.com

长按关注计算机视觉life

登录查看更多

相关内容

对抗样本

关注 13

对抗样本由Christian Szegedy等人提出，是指在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本，能够导致神经网络模型给出一个错误的预测结果。实质：对抗样本是通过向输入中加入人类难以察觉的扰动生成，能够改变人工智能模型的行为。其基本目标有两个，一是改变模型的预测结果；二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变，具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS 2020】对图神经网络更切实的对抗式攻击

专知会员服务

24+阅读 · 2020年11月5日

[NeurIPS 2020]对图神经网络更实际的对抗式攻击

专知会员服务

9+阅读 · 2020年11月1日

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

专知会员服务

35+阅读 · 2020年9月17日