Tree-based algorithms such as random forests and gradient boosted trees continue to be among the most popular and powerful machine learning models used across multiple disciplines. The conventional wisdom of estimating the impact of a feature in tree based models is to measure the \textit{node-wise reduction of a loss function}, which (i) yields only global importance measures and (ii) is known to suffer from severe biases. Conditional feature contributions (CFCs) provide \textit{local}, case-by-case explanations of a prediction by following the decision path and attributing changes in the expected output of the model to each feature along the path. However, Lundberg et al. pointed out a potential bias of CFCs which depends on the distance from the root of a tree. The by now immensely popular alternative, SHapley Additive exPlanation (SHAP) values appear to mitigate this bias but are computationally much more expensive. Here we contribute a thorough comparison of the explanations computed by both methods on a set of 164 publicly available classification problems in order to provide data-driven algorithm recommendations to current researchers. For random forests, we find extremely high similarities and correlations of both local and global SHAP values and CFC scores, leading to very similar rankings and interpretations. Analogous conclusions hold for the fidelity of using global feature importance scores as a proxy for the predictive power associated with each feature.


翻译:以树为基础的算法,如随机森林和梯度增殖树等,仍然是在多个学科中使用的最受欢迎和最强大的机器学习模型之一。估计树基模型中某个特征的影响的传统智慧是测量树基模型中某个特征的影响的常规智慧,即测量一个损失函数的距离。},它(一)只产生具有全球重要性的措施,(二)已知受到严重偏差的影响。有条件特征贡献(CFCs)提供\textit{local},逐个解释一种预测,遵循决策路径,将模型预期产出的变化归因于路径上的每个特征。然而,Lundberg 等人指出,氟氯化碳的潜在偏差取决于树根的距离。现在非常受欢迎的替代方法,Shanapley adiptive Explectation (SHAP) 值似乎减轻了这种偏差,但计算成本要高得多。我们在这里对两种方法所计算的解释进行了彻底的比较,即采用一套可公开获取的分类问题,以便向当前研究人员提供数据驱动的算法建议。对于随机森林来说,我们发现一种潜在的氟氯化碳的潜在偏差偏差,我们发现一种非常高的比和真实性的全球排序,即全球等级的比值,对SHACD的比值进行。

0
下载
关闭预览

相关内容

Explanation:生物信息学。 Publisher:Oxford University Press。 SIT: http://dblp.uni-trier.de/db/journals/bioinformatics/
【KDD2020教程】多模态网络表示学习
专知会员服务
130+阅读 · 2020年8月26日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Arxiv
3+阅读 · 2018年3月28日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员