Machine Learning (ML) models are susceptible to evasion attacks. Evasion accuracy is typically assessed using aggregate evasion rate, and it is an open question whether aggregate evasion rate enables feature-level diagnosis on the effect of adversarial perturbations on evasive predictions. In this paper, we introduce a novel framework that harnesses explainable ML methods to guide high-fidelity assessment of ML evasion attacks. Our framework enables explanation-guided correlation analysis between pre-evasion perturbations and post-evasion explanations. Towards systematic assessment of ML evasion attacks, we propose and evaluate a novel suite of model-agnostic metrics for sample-level and dataset-level correlation analysis. Using malware and image classifiers, we conduct comprehensive evaluations across diverse model architectures and complementary feature representations. Our explanation-guided correlation analysis reveals correlation gaps between adversarial samples and the corresponding perturbations performed on them. Using a case study on explanation-guided evasion, we show the broader usage of our methodology for assessing robustness of ML models.


翻译:机体学习(ML)模型容易遭到规避攻击。 通常利用总体规避率来评估逃逸准确性,这是一个未决问题,即总逃逸率是否有助于对对抗性干扰对蒸发预测的影响进行特征级诊断。 在本文中,我们引入了一个新颖的框架,利用可解释的 ML 方法来指导对逃逸攻击的高不忠性评估。我们的框架可以进行解释性指导性相关分析,分析潜逃前的扰动和逃逸后的解释。为了对逃逸攻击进行系统评估,我们提议并评价一套新型的样本级和数据集级相关分析模型----不可知度指标。我们使用恶意软件和图像分类方法,对各种模型结构进行全面评估,并进行互补特征描述。我们的解释性相关分析揭示了对冲抽样与对冲性攻击进行的相应扰动之间的关联性差距。我们用关于解释性规避的案例研究,展示了我们评估ML模型稳健性的方法的更广泛使用情况。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
44+阅读 · 2020年10月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
专知会员服务
116+阅读 · 2019年12月24日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
5+阅读 · 2020年10月22日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
4+阅读 · 2015年3月20日
VIP会员
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Top
微信扫码咨询专知VIP会员