Image segmentation is an important problem in many safety-critical applications. Recent studies show that modern image segmentation models are vulnerable to adversarial perturbations, while existing attack methods mainly follow the idea of attacking image classification models. We argue that image segmentation and classification have inherent differences, and design an attack framework specially for image segmentation models. Our attack framework is inspired by certified radius, which was originally used by defenders to defend against adversarial perturbations to classification models. We are the first, from the attacker perspective, to leverage the properties of certified radius and propose a certified radius guided attack framework against image segmentation models. Specifically, we first adapt randomized smoothing, the state-of-the-art certification method for classification models, to derive the pixel's certified radius. We then focus more on disrupting pixels with relatively smaller certified radii and design a pixel-wise certified radius guided loss, when plugged into any existing white-box attack, yields our certified radius-guided white-box attack. Next, we propose the first black-box attack to image segmentation models via bandit. We design a novel gradient estimator, based on bandit feedback, which is query-efficient and provably unbiased and stable. We use this gradient estimator to design a projected bandit gradient descent (PBGD) attack, as well as a certified radius-guided PBGD (CR-PBGD) attack. We prove our PBGD and CR-PBGD attacks can achieve asymptotically optimal attack performance with an optimal rate. We evaluate our certified-radius guided white-box and black-box attacks on multiple modern image segmentation models and datasets. Our results validate the effectiveness of our certified radius-guided attack framework.


翻译:图像分割在许多关键安全应用程序上是一个重要问题。最近的研究表明,现代图像分割模型容易受到对抗性扰动的攻击,而现有的攻击方法主要是针对图像分类模型的攻击思路。我们认为图像分割和分类具有本质差异,因此针对图像分割模型,设计了一个特别的攻击框架。我们的攻击框架受认证半径启发,认证半径最初是由防卫者用于保护分类模型免受对抗性攻击。我们是第一个从攻击者角度出发,利用认证半径性质并提出了一种针对图像分割模型的认证半径引导的攻击框架。具体而言,我们首先借鉴随机平滑的思想,为每个像素计算认证半径。之后,我们侧重于破坏具有相对较小认证半径的像素,设计了一个基于像素认证半径的损失函数。当将其插入任何现有的白盒攻击中,会产生我们的认证半径引导的白盒攻击。其次,我们提出了第一个针对图像分割模型的黑盒攻击方法。我们设计了一个基于bandit反馈的新型梯度估计器,其查询效率高,且具有可证明的无偏稳定性。我们使用这个梯度估计器来设计一个投影bandit梯度下降(PBGD)攻击,以及一个认证半径引导的PBGD(CR-PBGD)攻击。我们证明了我们的PBGD和CR-PBGD攻击可以达到最优攻击性能,并具有最优速率。我们在多个现代图像分割模型和数据集上评估了我们的认证半径引导白盒攻击和黑盒攻击。我们的结果验证了我们的认证半径引导的攻击框架的有效性。

0
下载
关闭预览

相关内容

【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
13+阅读 · 2021年3月14日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
13+阅读 · 2021年1月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
手把手教你使用TensorFlow生成对抗样本 | 附源码
全球人工智能
11+阅读 · 2017年10月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2021年3月10日
Image Segmentation Using Deep Learning: A Survey
Arxiv
44+阅读 · 2020年1月15日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员