In the transfer-based adversarial attacks, adversarial examples are only generated by the surrogate models and achieve effective perturbation in the victim models. Although considerable efforts have been developed on improving the transferability of adversarial examples generated by transfer-based adversarial attacks, our investigation found that, the big deviation between the actual and steepest update directions of the current transfer-based adversarial attacks is caused by the large update step length, resulting in the generated adversarial examples can not converge well. However, directly reducing the update step length will lead to serious update oscillation so that the generated adversarial examples also can not achieve great transferability to the victim models. To address these issues, a novel transfer-based attack, namely direction tuning attack, is proposed to not only decrease the update deviation in the large step length, but also mitigate the update oscillation in the small sampling step length, thereby making the generated adversarial examples converge well to achieve great transferability on victim models. In addition, a network pruning method is proposed to smooth the decision boundary, thereby further decreasing the update oscillation and enhancing the transferability of the generated adversarial examples. The experiment results on ImageNet demonstrate that the average attack success rate (ASR) of the adversarial examples generated by our method can be improved from 87.9\% to 94.5\% on five victim models without defenses, and from 69.1\% to 76.2\% on eight advanced defense methods, in comparison with that of latest gradient-based attacks.


翻译:在基于传输的对抗攻击中,对抗性示例仅由替代模型生成,并在受害模型中实现有效的扰动。尽管在提高基于传输的对抗攻击生成的对抗性示例的传递性方面已经做出了相当大的努力,但我们的调查发现,当前基于传输的对抗攻击的实际更新方向和最陡峭更新方向之间的巨大偏差是由于大量的更新步长引起的,导致生成的对抗性示例无法很好地收敛。然而,直接减小更新步长将导致严重的更新振荡,使生成的对抗性示例也无法在受害模型上实现良好的传递性。为了解决这些问题,提出了一种新的基于传输的攻击方法,即方向调整攻击,不仅可以减小大步长时的更新偏差,而且可以减轻小采样步长的振荡,从而使生成的对抗性示例能够很好地收敛并在受害模型上实现良好的传递性。此外,提出了一种网络剪枝方法来平滑决策边界,进一步降低更新振荡并增强生成的对抗性示例的传递性。 ImageNet上的实验结果表明,与最新的基于梯度的攻击相比,我们的方法生成的对抗性示例的平均攻击成功率(ASR)可以从五个受害模型的87.9%提高到94.5%,而在八种高级防御方法中可以从69.1%提高到76.2%。

0
下载
关闭预览

相关内容

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力
专知会员服务
18+阅读 · 2022年12月12日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
论文浅尝 | Continual Learning for Named Entity Recognition
开放知识图谱
1+阅读 · 2022年6月25日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
38+阅读 · 2020年3月10日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员