Localized adversarial patches aim to induce misclassification in machine learning models by arbitrarily modifying pixels within a restricted region of an image. Such attacks can be realized in the physical world by attaching the adversarial patch to the object to be misclassified, and defending against such attacks is an unsolved/open problem. In this paper, we propose a general defense framework called PatchGuard that can achieve high provable robustness while maintaining high clean accuracy against localized adversarial patches. The cornerstone of PatchGuard involves the use of CNNs with small receptive fields to impose a bound on the number of features corrupted by an adversarial patch. Given a bounded number of corrupted features, the problem of designing an adversarial patch defense reduces to that of designing a secure feature aggregation mechanism. Towards this end, we present our robust masking defense that robustly detects and masks corrupted features to recover the correct prediction. Notably, we can prove the robustness of our defense against any adversary within our threat model. Our extensive evaluation on ImageNet, ImageNette (a 10-class subset of ImageNet), and CIFAR-10 datasets demonstrates that our defense achieves state-of-the-art performance in terms of both provable robust accuracy and clean accuracy.


翻译:本地化的对立对立面补丁旨在通过任意修改限制图像区域内的像素,在机器学习模式中诱使错误分类。这种攻击可以在物理世界中通过将对立面补丁附在被错误分类的对象上来实现。 防范这类攻击是一个尚未解决/尚未解决的问题。 在本文件中,我们提议了一个称为PatchGuard的一般防御框架,这个框架可以实现高度可辨识的稳健性,同时对局部对立面补丁保持高度清洁的准确性。 PatchGuard 的基石是使用拥有小型可接受域的CNN对被对对对立面补丁腐蚀的特征进行约束。鉴于有一定数量的腐败特征,设计一个对立面补丁防御的问题将减少至设计一个安全特征集合机制的问题。 为此,我们展示了我们强有力的防守防守屏障,能够强有力地探测和掩蔽被腐蚀的特征,以恢复正确的预测。 值得注意的是,我们可以证明我们防御对威胁模式内任何对手的强健性。 我们对图像网、图像网(图像网的10类子)和CIFAR10数据集的大规模评价显示我们的防御在清洁条件中的准确性能。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年4月12日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
已删除
将门创投
4+阅读 · 2018年6月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
2+阅读 · 2021年5月26日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
已删除
将门创投
4+阅读 · 2018年6月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员