Several machine learning models, including neural networks, consistently misclassify adversarial examples---inputs formed by applying small but intentionally worst-case perturbations to examples from the dataset, such that the perturbed input results in the model outputting an incorrect answer with high confidence. Early attempts at explaining this phenomenon focused on nonlinearity and overfitting. We argue instead that the primary cause of neural networks' vulnerability to adversarial perturbation is their linear nature. This explanation is supported by new quantitative results while giving the first explanation of the most intriguing fact about them: their generalization across architectures and training sets. Moreover, this view yields a simple and fast method of generating adversarial examples. Using this approach to provide examples for adversarial training, we reduce the test set error of a maxout network on the MNIST dataset.


翻译:包括神经网络在内的若干机器学习模型,一贯错误地将对抗性实例 -- -- 通过对数据集中的例子应用小的但故意最坏的情况扰动而形成的投入 -- -- 归类不当,因此,干扰性输入导致模型以高度自信输出错误答案。早期解释这一现象的尝试侧重于非线性和过度装配。相反,我们争辩说,神经网络易受对抗性扰动影响的主要原因是其线性。这一解释得到了新的量化结果的支持,同时首先解释了最令人感兴趣的事实:这些模型在建筑和培训组合中的一般化。此外,这种观点提出了产生对抗性实例的简单而快速的方法。利用这一方法为对抗性培训提供实例,我们减少了MNIST数据集上最大值网络的测试错误。

4
下载
关闭预览

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
131+阅读 · 2020年5月14日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关资讯
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员