We propose a novel technique that can generate natural-looking adversarial examples by bounding the variations induced for internal activation values in some deep layer(s), through a distribution quantile bound and a polynomial barrier loss function. By bounding model internals instead of individual pixels, our attack admits perturbations closely coupled with the existing features of the original input, allowing the generated examples to be natural-looking while having diverse and often substantial pixel distances from the original input. Enforcing per-neuron distribution quantile bounds allows addressing the non-uniformity of internal activation values. Our evaluation on ImageNet and five different model architecture demonstrates that our attack is quite effective. Compared to the state-of-the-art pixel space attack, semantic attack, and feature space attack, our attack can achieve the same attack success/confidence level while having much more natural-looking adversarial perturbations. These perturbations piggy-back on existing local features and do not have any fixed pixel bounds.


翻译:我们提出一种新的技术,通过将某些深层层内部活化值的变量,通过分布式四分位捆绑和多式屏障丧失功能,将驱动内部活化值的变量捆绑起来,从而产生自然的对抗性实例。通过将模型内部内部而不是单个像素捆绑起来,我们的攻击承认了与原始输入的现有特征密切结合的扰动,使得生成的示例具有自然的外观,而与原始输入的距离则多种多样,而且往往相当大。 强化每个中子分布式孔径界限,可以解决内部活化值的不一致性问题。 我们对图像网络和五个不同的模型结构的评估表明,我们的攻击相当有效。与最先进的像素空间攻击、语义攻击和特征空间攻击相比,我们的攻击可以达到同样的攻击成功/自信水平,同时具有更自然的对抗性触动性。这些扰动性盘在现有的本地特征上搭载,没有固定的像素约束。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年3月12日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Metric Attack for Person Re-identification
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员