导读
机器学习(ML)由于能够准确地预测各种复杂的现象而受到广泛的关注。然而,人们越来越认识到,除了预测之外,ML模型还能够生成数据中包含的域关系的知识,通常称为解释。这些发现解释使用自己的权利,例如,医学(1)决策(2),和科学(3、4),以及审计的预测——自我应对监管压力等问题(5)和(6)公平。在这些领域,解释已经被证明有助于评估学习模型,提供信息修复模型(如果需要),并与领域专家(7)建立信任。
由于对可解释性缺乏一个明确的定义,因此,大量具有相应的大量输出的方法(如可视化、自然语言、数学方程)被标记为可解释。这导致了对可解释性概念的大量混淆。特别是,不清楚什么是解释,不同的方法之间存在什么共同的线索,以及如何为特定的问题/受众选择一种解释方法。
在本文中,我们试图解决这些问题。为此,我们首先定义机器学习环境中的可解释性,并将其置于通用数据科学生命周期中。这使我们能够区分两类主要的解释方法。
基于模型和事后分析。然后,我们介绍了预测、描述、相关(PDR)框架,由3个用于评估和构建解释的决策-组成:预测准确性、描述准确性和相关性,相关性由人类受众进行判断。使用这些术语,我们对现有的方法进行了广泛的分类,所有这些方法都基于真实的例子。在此过程中,我们为研究人员和实践者提供了一个用于评估和选择解释方法的通用词汇表。然后,我们展示了我们的工作如何使未来研究的开放问题得到更清晰的讨论。
参考链接:
https://www.pnas.org/content/early/2019/10/15/1900654116
后台回复“IML-DMA” 就可以获取《Definitions, Methods, and Applications in Interpretable Machine Learning》的完整版PDF下载链接~