Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction error. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore to detect adversarial examples by disentangled representations of images under the autoencoder structure. By disentangling input images as class features and semantic features, we train an autoencoder, assisted by a discriminator network, over both correctly paired class/semantic features and incorrectly paired class/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. Compared with the state-of-the-art self-supervised detection methods, our method exhibits better performance in various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST, Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM, PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer VGG). We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models (30 attack settings), and it exhibits better performance in various measurements (AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other Autoencoder-based detectors, our method can provide resistance to the adaptive adversary.


翻译:深层次的学习模式众所周知,很容易受到为恶意目的精心设计的对抗性例子的伤害,并且对人类感官系统来说是无法察觉的。自动编码器,如果仅经过良性实例的培训,完全以良性实例为基础,被广泛用于(自我监督的)对抗性检测,所依据的假设是,对抗性实例产生更大的重建错误。然而,由于在培训中缺乏对抗性实例,自动编码器过于强的概括性能力,这一假设在实践中并不总是真实的。为了缓解这一问题,我们探索如何通过在自动编码结构下解析图像来发现对抗性实例。通过将输入性图像分解为类特征和语义特征,我们培训了自动编码器,同时利用一个歧视性网络,既包括正确的对等类/情感特征,又不正确的对等类/情绪特征。这让对抗性实例的行为与对抗性能不尽一样,并且可以减少自动编码器攻击的不必要概括性能。 与最先进的自我监督性攻击模式相比,最高级的自我追踪性能模型,不同方法,不同方法,不同方法,以及不同方法,不同方法,即甚甚甚甚、甚甚甚甚甚甚甚甚、甚甚甚甚、甚、甚、甚甚、甚甚甚的内地变压、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、甚、

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
专知会员服务
35+阅读 · 2021年7月7日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
20+阅读 · 2020年6月8日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年7月7日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员