Attribution methods have been shown as promising approaches for identifying key features that led to learned model predictions. While most existing attribution methods rely on a baseline input for performing feature perturbations, limited research has been conducted to address the baseline selection issues. Poor choices of baselines limit the ability of one-vs-one (1-vs-1) explanations for multi-class classifiers, which means the attribution methods were not able to explain why an input belongs to its original class but not the other specified target class. 1-vs-1 explanation is crucial when certain classes are more similar than others, e.g. two bird types among multiple animals, by focusing on key differentiating features rather than shared features across classes. In this paper, we present GAN-based Model EXplainability (GANMEX), a novel approach applying Generative Adversarial Networks (GAN) by incorporating the to-be-explained classifier as part of the adversarial networks. Our approach effectively selects the counterfactual baseline as the closest realistic sample belong to the target class, which allows attribution methods to provide true 1-vs-1 explanations. We showed that GANMEX baselines improved the saliency maps and led to stronger performance on perturbation-based evaluation metrics over the existing baselines. Existing attribution results are known for being insensitive to model randomization, and we demonstrated that GANMEX baselines led to better outcome under the cascading randomization of the model.


翻译:虽然大多数现有归因方法都依赖基线投入来进行特征扰动,但为处理基线选择问题进行了有限的研究。基准选择不当限制了对多级分类器一五一(1-vs-1)解释的能力,这意味着归因方法无法解释为什么输入属于最初类别,而不是其他特定目标类别。 当某些类别与其它类别更为相似时,1-vs-1解释至关重要,例如,多种动物的两种鸟类类型,侧重于关键区别特征,而不是各类别之间共享特征。在本文件中,我们介绍了基于GAN的模型可扩展性(GANMEX),这是对多级分类器采用Genemental Aversarial 网络(GAN)解释的新颖办法,即将待爆分类器作为对抗性网络的一部分。我们的方法有效地选择了最接近现实的模型基线,因为最接近的样本属于目标类别,从而使得归属方法能够提供真实的1-vs-1解释。我们显示GANMEX的归因基准改进了我们所了解的现有基准,并显示的比现有基准更强的GANMEX基准,从而改进了现有结果基准,我们所显示的比基准。

0
下载
关闭预览

相关内容

生成对抗网络GAN的发展与最新应用
专知会员服务
125+阅读 · 2020年8月13日
生成式对抗网络GAN异常检测
专知会员服务
115+阅读 · 2019年10月13日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
31+阅读 · 2019年6月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月24日
Arxiv
3+阅读 · 2021年8月24日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
Top
微信扫码咨询专知VIP会员