动态 | Goodfellow最新对抗样本，连人类都分不清是狗是猫

2018 年 2 月 25 日 AI科技评论 camel

AI 科技评论按：机器学习模型容易受到对抗样本的影响，这已不是什么新鲜事。相信下面大家对下面这幅图（Goodfellow et al., 2014）都不陌生：

Goodfellow 凭借这张图让我们知道，即使对样本微小的改变也能欺骗学习模型，让模型做出南辕北辙的判断。这项工作充分说明了目前 AI 系统的脆弱性。

近期 Goodfellow 等人在「欺骗」上又更上一层楼，不光是欺骗机器，连人类也被欺骗了。

如上图所示，机器模型和人类都会判断左侧是猫，而右侧是狗，即使你仔细观察可能也会得出相同的结论。而事实上右侧图像只是左侧图像一个简单地对抗扰动。相关的工作发表在《Adversarial Examples that Fool both Human and Computer Vision》。

意义

这篇文章的重要意义不言而喻。如论文摘要中所说：「机器学习模型易受对抗样本的攻击这点大家已经非常清楚；人类是否也有相同的弱点还是一个开放性问题；而这篇文章提出了第一个能够欺骗人类的对抗样本。」

论文中还说到它对机器学习安全研究的影响。从机器学习安全的角度来考虑，如果我们知道人脑可以抵御某些类型的对抗样本，那么这就说明在机器学习安全中存在类似的机制，这为我们寻找它们提供了信心和线索；反过来，如果我们知道存在对抗样本能够欺骗我们的大脑，那么这就告诉我们，机器学习安全的重心不应该是研究如何设计鲁棒性极高的模型，而应是研究如何保证系统即使包含非鲁棒性的 ML 组件，仍然是安全的。

另一方面，如果针对计算机视觉开发的对抗样本对人脑也有影响，这将为我们了解人脑的工作机理提供某些线索。

思路

在 Goodfellow et al.(2014) 的文章之后，计算机视觉领域相继出现很多构建对抗样本的流行算法，这些算法的一个共同点就是依赖模型的架构和参数来对输入进行梯度优化。但是，我们好像没办法获取大脑这个模型的「架构」以及「参数」。那么如何才能构建针对人类的对抗样本呢？

这就需要考虑一个比较有意思的现象了——对抗样本通常可以在模型之间进行迁移；也即是说，我们可以通过迁移的方法来攻击哪些不知道其「架构」和「参数」的模型。这就使得构建针对人类的对抗样本成为可能。

当然事情并不是这么简单。作为人类，我们有很多认知偏差或者视觉错觉，但是这些偏差或错觉并不等同于之前研究中对图像的微小扰动。此外，我们可以通过学习损失函数来优化机器模型的对抗样本，但是对于人类，这种方法显然是无效的（或者需要花费极大的劳动）。所以到目前为止并没有看到有将迁移性对抗样本应用于人类视觉感知领域的研究。

这篇文章的作者针对这些问题，采取了三个关键的思想来解决：

之一，作者使用近期的黑箱对抗样本构建技术为一个目标模型（不需要知道模型的架构和参数）创建对抗样本；
之二，作者对机器学习模型做了一番调整来模仿人类前期视觉处理过程，也即让模型更像人，使对抗模型更容易从学习模型迁移到人类；
之三，由于人类在分类任务中的准确率太高，实验性能的微小改变可能达不到可观测的效果。于是作者在评估人类观察者的分类决策时，限制他们必须在一定的时间范围内做出决定，这样一来对抗样本对人的影响就更容易被检测出来了。

藉此三条，于是 Goodfellow 等人就构建出了能够同时欺骗机器学习模型和人类的对抗样本。

模型

作者构建了 k（k=10）个在 ImageNet 上训练的 CNN 模型，每个模型都是以下这些架构之一的实例 (Szegedy et al., 2015; 2016; He et al., 2016)：

Inception V3, Inception V4, Inception ResNet V2

ResNet V2 50, ResNet V2 101, ResNet V2 152

如前面提到的思想之二，作者为每个模型输入前置了一个视网膜层，该视网膜层包含了一些人眼的视觉变换；甚至，作者还在这个视网膜层中添加了偏心依赖的模糊化，以更符合人类通过视网膜格子（注：人类视网膜不是密集排布的）输入的机理。

结果

让我们回到开头的那张图片。不得不说，这是一张极具代表性的例子，即使我们再多看几遍也仍然会认为右侧的那张图片是狗。

下面这张是更多的结果：

上面一列从左到右，是攻击不同个数（1，5，10）的模型生成的对抗样本，随后用两个测试模型（其中一个是人类模型）进行分类。可以看出攻击的目标模型数量越多，生成的图像对人类来说越像狗。

下面一列则是针对 10 个模型的攻击生成的对抗样本，从左到右为不同的攻击程度。文中介绍说 eps=8 时，人类受试者已经认为这是狗了。

p.s. 不过为什么笔者觉得原图好像也是只狗呢？U•ェ•*U

————— AI 科技评论招人了 —————

————— 给爱学习的你的福利 —————

Fintech 年终思想盛宴

28 天『AI+金融』学习特惠

跟着民生技术总监、前瑞银大牛、四大行一线操盘手们一起充电

区块链、智能投顾、CCF ADL 智能商业课等都参与特惠

与大咖们碰撞思维

扫码或点击阅读原文了解活动详情

▼▼▼

————————————————————

登录查看更多

相关内容

对抗样本

关注 13

对抗样本由Christian Szegedy等人提出，是指在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本，能够导致神经网络模型给出一个错误的预测结果。实质：对抗样本是通过向输入中加入人类难以察觉的扰动生成，能够改变人工智能模型的行为。其基本目标有两个，一是改变模型的预测结果；二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变，具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。

深度学习可解释性研究进展

专知会员服务

103+阅读 · 2020年6月26日

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

专知会员服务

68+阅读 · 2020年4月28日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

专知会员服务

148+阅读 · 2020年2月2日