【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

导读

机器学习模型在学习复杂模式方面取得了巨大的成功,这些模式使机器能够对未观察到的数据做出预测。除了使用模型进行预测外,解释模型所学内容的能力正受到越来越多的关注。然而,这种关注的增加导致了对可解释性概念的相当大的混淆。特别是,目前还不清楚所提出的各种解释方法是如何相互联系的,以及可以用什么共同的概念来评价这些方法。我们的目标是通过定义机器学习环境中的可解释性,并引入预测、描述和相关(PDR)框架来讨论解释性,从而解决这些问题。PDR框架为评估提供了3个主要的需求:预测准确性、描述准确性和相关性,以及相对于人类受众判断的相关性。此外,为了帮助管理大量的解释方法,我们将现有的技术分为基于模型的和特定的类别,包括稀疏性、模块化性和可模拟性。为了证明从业者如何使用PDR框架来评估和理解解释,我们提供了大量的实际例子。这些例子突出了人类观众在讨论可解释性时常常被低估的作用。最后,基于我们的框架工作,我们讨论了现有方法的局限性和未来工作的方向。我们希望这项工作将提供一个共同的词汇,使从业者和研究人员更容易地讨论和选择全面的解释方法。



机器学习(ML)由于能够准确地预测各种复杂的现象而受到广泛的关注。然而,人们越来越认识到,除了预测之外,ML模型还能够生成数据中包含的域关系的知识,通常称为解释。这些发现解释使用自己的权利,例如,医学(1)决策(2),和科学(3、4),以及审计的预测——自我应对监管压力等问题(5)和(6)公平。在这些领域,解释已经被证明有助于评估学习模型,提供信息修复模型(如果需要),并与领域专家(7)建立信任。


由于对可解释性缺乏一个明确的定义,因此,大量具有相应的大量输出的方法(如可视化、自然语言、数学方程)被标记为可解释。这导致了对可解释性概念的大量混淆。特别是,不清楚什么是解释,不同的方法之间存在什么共同的线索,以及如何为特定的问题/受众选择一种解释方法。


在本文中,我们试图解决这些问题。为此,我们首先定义机器学习环境中的可解释性,并将其置于通用数据科学生命周期中。这使我们能够区分两类主要的解释方法。


基于模型和事后分析。然后,我们介绍了预测、描述、相关(PDR)框架,由3个用于评估和构建解释的决策-组成:预测准确性、描述准确性和相关性,相关性由人类受众进行判断。使用这些术语,我们对现有的方法进行了广泛的分类,所有这些方法都基于真实的例子。在此过程中,我们为研究人员和实践者提供了一个用于评估和选择解释方法的通用词汇表。然后,我们展示了我们的工作如何使未来研究的开放问题得到更清晰的讨论。



参考链接:

https://www.pnas.org/content/early/2019/10/15/1900654116


完整PDF下载
请关注专知公众号(点击上方蓝色专知关注

后台回复“IML-DMA” 就可以获取《Definitions, Methods, and Applications in Interpretable Machine Learning》的完整版PDF下载链接~


-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册成为专知VIP会员
展开全文
Top
微信扫码咨询专知VIP会员