Most of the works follow such definition of adversarial example that is imperceptible to humans but can fool the deep neural networks (DNNs). Some works find another interesting form of adversarial examples such as one which is unrecognizable to humans, but DNNs classify it as one class with high confidence and adversarial patch. Based on this phenomenon, in this paper, from the perspective of cognition of humans and machines, we propose a new definition of adversarial examples. We show that imperceptible adversarial examples, unrecognizable adversarial examples, and adversarial patches are derivates of generalized adversarial examples. Then, we propose three types of adversarial attacks based on the generalized definition. Finally, we propose a defence mechanism that achieves state-of-the-art performance. We construct a lossy compression function to filter out the redundant features generated by the network. In this process, the perturbation produced by the attacker will be filtered out. Therefore, the defence mechanism can effectively improve the robustness of the model. The experiments show that our attack methods can effectively generate adversarial examples, and our defence method can significantly improve the adversarial robustness of DNNs compared with adversarial training. As far as we know, our defending method achieves the best performance even though we do not adopt adversarial training.


翻译:多数作品遵循了对人来说是无法察觉的对抗性范例的定义,但可以愚弄深层神经网络(DNNS)。有些作品发现另一种有趣的对抗性例子形式,例如对人类而言无法辨认的对抗性例子,但DNNS将其归类为具有高度信心和对抗性补丁的一类。根据这一现象,我们在本文件中从人类和机器认知的角度提出了一个新的对抗性例子定义。我们表明,不可察觉的对抗性例子、无法辨认的对抗性例子和对抗性补丁是普遍对抗性例子的衍生物。然后,我们根据普遍定义提出三种类型的对抗性攻击。最后,我们提出一个能达到最新性能的防御性机制。我们从人类和机器认知的角度出发,构建了一种损失压缩功能,以过滤网络产生的冗余特征。在这个过程中,攻击者产生的扰动性例子将被过滤出来。因此,防御性机制可以有效地改进模型的稳健性。实验表明,我们的攻击性攻击方法不能有效地通过对抗性训练来改进我们的最佳的对抗性训练方法,我们通过最强的对抗性训练来进行防御性训练。我们最强的防御性训练。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
52+阅读 · 2020年9月7日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年1月17日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年1月17日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
10+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员