Contrastive explanations clarify why an event occurred in contrast to another. They are more inherently intuitive to humans to both produce and comprehend. We propose a methodology to produce contrastive explanations for classification models by modifying the representation to disregard non-contrastive information, and modifying model behavior to only be based on contrastive reasoning. Our method is based on projecting model representation to a latent space that captures only the features that are useful (to the model) to differentiate two potential decisions. We demonstrate the value of contrastive explanations by analyzing two different scenarios, using both high-level abstract concept attribution and low-level input token/span attribution, on two widely used text classification tasks. Specifically, we produce explanations for answering: for which label, and against which alternative label, is some aspect of the input useful? And which aspects of the input are useful for and against particular decisions? Overall, our findings shed light on the ability of label-contrastive explanations to provide a more accurate and finer-grained interpretability of a model's decision.


翻译:反之, 反之亦然。 它们对于人类来说更具有内在的直觉性, 既产生又理解。 我们提出一种方法,通过修改表达方式, 忽略非争议性信息, 修改模型行为, 将模型行为只以对比推理为基础, 来为分类模式提供对比性解释。 我们的方法是基于将模型代表方式投射到一个潜在空间, 只捕捉两种潜在决定的有用特征( 对模型而言 ) 。 我们用两种广泛使用的文本分类任务, 分析两种不同假设, 使用高层次的抽象概念属性和低层次输入符号/span 归属, 来显示对比性解释的价值。 具体地说, 我们提出答案的解释: 对于哪些标签, 和哪些替代标签是投入的某些有用方面? 投入的哪些方面对特定决定有用? 总体而言, 我们的调查结果揭示了标签- 调性解释对于模型决定提供更准确、更精确、更精确、更精确的解释的能力。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
专知会员服务
109+阅读 · 2020年3月12日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年11月1日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Arxiv
3+阅读 · 2017年12月23日
VIP会员
Top
微信扫码咨询专知VIP会员