Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks, including evasion and backdoor (poisoning) attacks. On the defense side, there have been intensive efforts on improving both empirical and provable robustness against evasion attacks; however, provable robustness against backdoor attacks still remains largely unexplored. In this paper, we focus on certifying the machine learning model robustness against general threat models, especially backdoor attacks. We first provide a unified framework via randomized smoothing techniques and show how it can be instantiated to certify the robustness against both evasion and backdoor attacks. We then propose the first robust training process, RAB, to smooth the trained model and certify its robustness against backdoor attacks. We derive the robustness bound for machine learning models trained with RAB, and prove that our robustness bound is tight. In addition, we show that it is possible to train the robust smoothed models efficiently for simple models such as K-nearest neighbor classifiers, and we propose an exact smooth-training algorithm which eliminates the need to sample from a noise distribution for such models. Empirically, we conduct comprehensive experiments for different machine learning (ML) models such as DNNs, differentially private DNNs, and K-NN models on MNIST, CIFAR-10 and ImageNet datasets, and provide the first benchmark for certified robustness against backdoor attacks. In addition, we evaluate K-NN models on a spambase tabular dataset to demonstrate the advantages of the proposed exact algorithm. Both the theoretic analysis and the comprehensive evaluation on diverse ML models and datasets shed lights on further robust learning strategies against general training time attacks.


翻译:最近的研究显示,深心神经网络(DNNS)很容易受到对抗性攻击,包括躲避和后门(毒气)攻击。在国防方面,已经大力改进对逃避攻击的经验和可证实的稳健性;然而,对后门攻击的可证实的稳健性在很大程度上仍未探索。在本文件中,我们的重点是证明机器学习模型的稳健性,以对付一般威胁模式,特别是后门攻击。我们首先通过随机化的平滑技术提供一个统一的框架,并表明如何立即证实对逃避和后门攻击的稳健性。然后我们提议采用第一个强有力的培训进程,即RAB,以平滑性模型平滑性模型和可辨明性模型的稳健性强性强性。我们用一个精确的光性评估算法来消除对类似模型的噪音分配、KMNFAR的实性模型、KML数据测试模型的实性数据。此外,我们展示了在机器-NFAR的模型上对硬性数字模型、KML数据测试的实性模型和DFAR数据。我们提议了一种精确的测算算法,在模型上,在机器-NFNFAR模型上,在模型上,在数据实验上,在模型上,在模型上,在模型上,在模型上,在模型上,在数据库数据库数据上,在数据库数据库数据库数据上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,在模型上,

0
下载
关闭预览

相关内容

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
13+阅读 · 2021年1月31日
专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
14+阅读 · 2020年10月26日
Weight Poisoning Attacks on Pre-trained Models
Arxiv
5+阅读 · 2020年4月14日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
12+阅读 · 2020年12月10日
Arxiv
14+阅读 · 2020年10月26日
Weight Poisoning Attacks on Pre-trained Models
Arxiv
5+阅读 · 2020年4月14日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Top
微信扫码咨询专知VIP会员