Delusive attacks aim to substantially deteriorate the test accuracy of the learning model by slightly perturbing the features of correctly labeled training examples. By formalizing this malicious attack as finding the worst-case training data within a specific $\infty$-Wasserstein ball, we show that minimizing adversarial risk on the perturbed data is equivalent to optimizing an upper bound of natural risk on the original data. This implies that adversarial training can serve as a principled defense against delusive attacks. Thus, the test accuracy decreased by delusive attacks can be largely recovered by adversarial training. To further understand the internal mechanism of the defense, we disclose that adversarial training can resist the delusive perturbations by preventing the learner from overly relying on non-robust features in a natural setting. Finally, we complement our theoretical findings with a set of experiments on popular benchmark datasets, which show that the defense withstands six different practical attacks. Both theoretical and empirical results vote for adversarial training when confronted with delusive adversaries.


翻译:故意攻击的目的是通过略微扰乱贴有正确标签的培训实例的特征,大大降低学习模式的测试准确性。我们通过将这一恶意攻击正规化为在特定的美元-瓦瑟斯坦球中找到最坏情况的培训数据,表明将受扰动数据中的对抗风险降到最低程度,相当于优化原始数据中自然风险的上限。这意味着对抗性训练可以作为抵御欺骗性攻击的原则性防御。因此,通过对抗性攻击的测试准确性可以在很大程度上通过对抗性训练来恢复。为了进一步理解内部防御机制,我们透露对抗性训练可以抵制破坏性干扰,防止学习者过度依赖自然环境中的非野蛮特征。最后,我们用一套关于流行基准数据集的实验来补充我们的理论结论,这些实验表明,防御性攻击可以经受六种不同的实际攻击。在与击溃动性对手对抗时,对对抗性攻击的理论性和经验性结果投票。

0
下载
关闭预览

相关内容

专知会员服务
40+阅读 · 2021年5月6日
专知会员服务
33+阅读 · 2020年12月28日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年1月12日
Arxiv
0+阅读 · 2022年1月4日
Arxiv
5+阅读 · 2020年10月22日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
专知会员服务
40+阅读 · 2021年5月6日
专知会员服务
33+阅读 · 2020年12月28日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员