The adversarial patch attack against image classification models aims to inject adversarially crafted pixels within a localized restricted image region (i.e., a patch) for inducing model misclassification. This attack can be realized in the physical world by printing and attaching the patch to the victim object and thus imposes a real-world threat to computer vision systems. To counter this threat, we propose PatchCleanser as a certifiably robust defense against adversarial patches that is compatible with any image classifier. In PatchCleanser, we perform two rounds of pixel masking on the input image to neutralize the effect of the adversarial patch. In the first round of masking, we apply a set of carefully generated masks to the input image and evaluate the model prediction on every masked image. If model predictions on all one-masked images reach a unanimous agreement, we output the agreed prediction label. Otherwise, we perform a second round of masking to settle the disagreement, in which we evaluate model predictions on two-masked images to robustly recover the correct prediction label. Notably, we can prove that our defense will always make correct predictions on certain images against any adaptive white-box attacker within our threat model, achieving certified robustness. We extensively evaluate our defense on the ImageNet, ImageNette, CIFAR-10, CIFAR-100, SVHN, and Flowers-102 datasets and demonstrate that our defense achieves similar clean accuracy as state-of-the-art classification models and also significantly improves certified robustness from prior works. Notably, our defense can achieve 83.8% top-1 clean accuracy and 60.4% top-1 certified robust accuracy against a 2%-pixel square patch anywhere on the 1000-class ImageNet dataset.


翻译:对抗图像分类模型的对抗性网状攻击的目的是在局部限制图像区域(即一个补丁)内注入对抗性设计的像素,以诱导模型错误分类。这种攻击可以在物理世界中通过打印和将补丁附加在受害者对象上来实现,从而给计算机视觉系统带来现实世界的威胁。为了应对这一威胁,我们建议PatchCleanser将PatchCleaner作为与任何图像分类兼容的对抗性网状的可靠防御。在PackVleaner中,我们在输入图像区域(即一个补丁)上安装两轮像素遮罩,以抵消对抗对对对对称的准确性的影响。在第一轮掩码中,我们将一套精心制作的面具用于对输入图像进行打印,并在每个遮掩面图像上进行模型的模拟。我们用两张的模型对稳妥度预测,我们可以证明我们最精确的网状的准确度,在S-IFAR图像中,我们用最精确的准确性模型,在S-IFAR模型中,我们最精确的升级的模型上,我们总能纠正对某张的S-RER的准确度预测。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
2021年中国人工智能产业发展趋势,13页pdf
专知会员服务
118+阅读 · 2021年3月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
已删除
生物探索
3+阅读 · 2018年2月10日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2019年11月21日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年6月12日
2021年中国人工智能产业发展趋势,13页pdf
专知会员服务
118+阅读 · 2021年3月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
已删除
生物探索
3+阅读 · 2018年2月10日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Top
微信扫码咨询专知VIP会员