Understanding and explaining the mistakes made by trained models is critical to many machine learning objectives, such as improving robustness, addressing concept drift, and mitigating biases. However, this is often an ad hoc process that involves manually looking at the model's mistakes on many test samples and guessing at the underlying reasons for those incorrect predictions. In this paper, we propose a systematic approach, conceptual counterfactual explanations(CCE), that explains why a classifier makes a mistake on a particular test sample(s) in terms of human-understandable concepts (e.g. this zebra is misclassified as a dog because of faint stripes). We base CCE on two prior ideas: counterfactual explanations and concept activation vectors, and validate our approach on well-known pretrained models, showing that it explains the models' mistakes meaningfully. In addition, for new models trained on data with spurious correlations, CCE accurately identifies the spurious correlation as the cause of model mistakes from a single misclassified test sample. On two challenging medical applications, CCE generated useful insights, confirmed by clinicians, into biases and mistakes the model makes in real-world settings. The code for CCE is publicly available and can easily be applied to explain mistakes in new models.


翻译:理解和解释经过培训的模型的错误对于许多机器学习目标至关重要,例如提高稳健性、处理概念漂移和减少偏差。然而,这往往是一个临时过程,涉及手动检查模型在许多测试样品上的错误,并猜测这些不正确预测的根本原因。在本文中,我们建议一种系统的方法,概念反事实解释(CCE),从而解释为什么一个分类者在人类可理解的概念方面在特定测试样本上犯了错误(例如,这只斑马由于细微条纹条而被误划为狗)。我们CEC基于以前的两个想法:反事实解释和概念激活矢量,并验证我们在众所周知的预先训练模型上的做法,表明它有意义地解释模型的错误。此外,对于经过有虚假关联的数据培训的新模型,CEE准确地指出,在单一分类的测试样本中,错误是典型错误的原因。关于两种具有挑战性的医学应用,CEEE产生有用的洞察力,并得到临床医生的证实,可以很容易地解释在现实世界环境中的模型。

0
下载
关闭预览

相关内容

【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
34+阅读 · 2021年11月30日
【DeepMind】多模态预训练模型概述,37页ppt
专知会员服务
94+阅读 · 2021年7月2日
应用机器学习书稿,361页pdf
专知会员服务
59+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
8+阅读 · 2021年7月15日
Arxiv
5+阅读 · 2021年1月7日
VIP会员
相关VIP内容
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
34+阅读 · 2021年11月30日
【DeepMind】多模态预训练模型概述,37页ppt
专知会员服务
94+阅读 · 2021年7月2日
应用机器学习书稿,361页pdf
专知会员服务
59+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员