It is well known that adversarial attacks can fool deep neural networks with imperceptible perturbations. Although adversarial training significantly improves model robustness, failure cases of defense still broadly exist. In this work, we find that the adversarial attacks can also be vulnerable to small perturbations. Namely, on adversarially-trained models, perturbing adversarial examples with a small random noise may invalidate their misled predictions. After carefully examining state-of-the-art attacks of various kinds, we find that all these attacks have this deficiency to different extents. Enlightened by this finding, we propose to counter attacks by crafting more effective defensive perturbations. Our defensive perturbations leverage the advantage that adversarial training endows the ground-truth class with smaller local Lipschitzness. By simultaneously attacking all the classes, the misled predictions with larger Lipschitzness can be flipped into correct ones. We verify our defensive perturbation with both empirical experiments and theoretical analyses on a linear model. On CIFAR10, it boosts the state-of-the-art model from 66.16% to 72.66% against the four attacks of AutoAttack, including 71.76% to 83.30% against the Square attack. On ImageNet, the top-1 robust accuracy of FastAT is improved from 33.18% to 38.54% under the 100-step PGD attack.


翻译:众所周知, 对抗性攻击可以以无法察觉的触动来愚弄深心神经网络。 尽管对抗性训练可以显著地改善模型强力, 但防御性失败案例仍然广泛存在。 在这项工作中,我们发现对抗性攻击也可能容易受到小扰动。 也就是说, 在对抗性训练模式中, 以小随机噪音干扰敌对性例子可能会使其错误的预测无效。 在仔细研究各种最先进的攻击之后, 我们发现所有这些攻击都有不同程度的缺陷。 通过这一发现, 我们提议通过设计更有效的防御性扰动来反击攻击。 我们的防御性攻击利用了对抗性训练使地面图象等级受到小小扰动的优势。 在对抗性对抗性攻击的模型中,通过同时攻击所有课程,可以将大 Lipschitz的错误预测翻转成正确的预测。 我们通过对线性模型的实验和理论分析来核实我们的防御性破坏。 在CIFAR10号中, 我们建议通过设计更有效的防御性攻击性攻击模式下的国家- 33% 式攻击性模型, 包括自动- 16 % 直方攻击性攻击性攻击性攻击性攻击性模型,从4 自动- 直方- 直方- 直方- 直方- 直方- 直方- 直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-直方-方-直方-直方-方-方-方-方-方-方-方-方-直方-直方-方-方-直方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-方-

0
下载
关闭预览

相关内容

专知会员服务
49+阅读 · 2021年7月10日
专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
哈工大SCIR博士生郭茂盛顺利通过博士学位答辩
哈工大SCIR
4+阅读 · 2019年10月8日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
哈工大SCIR博士生郭茂盛顺利通过博士学位答辩
哈工大SCIR
4+阅读 · 2019年10月8日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员