摘要: 机器学习(ML)中的可解释性对于高风险决策和故障排除是至关重要的。在这项工作中,我们提供了可解释性ML的基本原则,并消除了淡化这一关键话题的重要性的常见误解。我们还确定了可解释机器学习的10个技术挑战领域,并提供了每个问题的历史和背景。这些问题中有些是典型的重要问题,有些是最近几年才出现的问题。这些问题包括: (1)优化决策树等稀疏逻辑模型; (2)评分系统优化; (3)在广义加性模型中放置约束,以促进稀疏性和更好的可解释性; (4)现代案例推理,包括神经网络和匹配因果推理; (5)神经网络的完全监督解缠; (6)神经网络的完全或部分无监督解缠; (7)数据可视化降维; (8)能够结合物理和其他生成或因果约束的机器学习模型; (9)良好模型的“罗生门集”的刻画; (10)可解释强化学习。该综述适合作为对可解释机器学习感兴趣的统计学家和计算机科学家的起点。
引言
随着机器学习(ML)的广泛应用,可解释性在避免灾难性后果方面的重要性变得越来越明显。黑箱预测模型的定义是不可思议的,它已经导致严重的社会问题,深刻影响健康、自由、种族偏见和安全。可解释预测模型受到限制,因此其推理过程更容易被人类理解,也更容易进行故障排除和在实践中使用。人们普遍认为,可解释性是AI模型信任的关键因素(Wagstaff, 2012; Rudin and Wagstaff, 2014; Lo Piano, 2020; Ashoori and Weisz, 2019; Thiebes et al., 2020; Spiegelhalter, 2020; Brundage et al., 2020)。在这项综述中,我们提供了基本原理,以及内在可解释机器学习模型设计中的10个技术挑战。
让我们提供一些背景资料。黑盒机器学习模型是一个公式,它要么太复杂,任何人都无法理解,要么是专有的,以至于人们无法理解其内部工作原理。黑盒模型很难排除故障,这对于医疗数据来说尤其成问题。黑箱模型通常会在错误的原因下预测正确的答案(“聪明的汉斯”现象),导致在训练中表现优异,但在实践中表现不佳(Schramowski et al., 2020; Lapuschkin et al., 2019; O’Connor, 2021; Zech et al., 2018; Badgeley et al., 2019; Hamamoto et al., 2020)。黑盒模型还有许多其他问题。在刑事司法方面,个人可能会因为黑箱模型输入的印刷错误而遭受多年的额外监禁(Wexler, 2017),而设计不佳的空气质量专有模型在野火期间对公共安全造成了严重后果(McGough, 2018);这两种情况都很容易用可解释模型来避免。在数据的底层分布发生变化的情况下(称为域转移,这在实践中经常发生),如果用户不能实时地对模型进行故障排除,那么问题就会出现,而黑盒模型比可解释模型要困难得多。要确定一个黑箱模型在性别或种族群体方面是否公平,要比确定一个可解释的模型是否存在这种偏见要困难得多。在医学领域,黑盒模型将计算机辅助决策转化为自动决策,正是因为医生无法理解黑盒模型的推理过程。解释黑盒,而不是用可解释的模型替代它们,可能会通过提供误导性或错误的描述使问题变得更糟(Rudin, 2019; Laugel et al., 2019; Lakkaraju and Bastani, 2020),或者给黑匣子增加不必要的权力(Rudin and Radin, 2019)。显然,我们需要具有内在可解释性的创新机器学习模型。
本综述的主要部分概述了可解释性机器学习中一系列重要和基本的技术重大挑战。这些挑战既有现代的,也有古典的,有些挑战要比其他的困难得多。它们要么很难解决,要么很难正确地表述。虽然有许多关于模型部署的社会技术挑战(可能比技术挑战困难得多),人机交互挑战,以及健壮性和公平性如何与可解释性交互,这些话题可以留到以后讨论。我们从可解释机器学习中最经典和最规范的问题开始: 如何为表格数据建立稀疏模型,包括决策树(挑战#1)和评分系统(挑战#2)。然后我们研究了一个涉及加法模型的挑战(挑战#3),接着是另一个基于案例推理的挑战(挑战#4),这是可解释人工智能中的另一个经典主题。然后我们转向更奇特的问题,即在神经网络中有监督和无监督的概念解缠(挑战#5和#6)。回到经典问题,我们讨论降维(挑战#7)。然后,如何整合物理或因果约束(挑战#8)。挑战#9涉及到理解、探索和衡量罗生门精确预测模型集。挑战#10 讨论可解释强化学习。表1提供了一个指南,可以帮助用户将数据集与合适的可解释监督学习技术相匹配。我们将在挑战中涉及所有这些技术。
可解释机器学习原则
原则1: 一个可解释的机器学习模型遵循一组特定领域的约束,使其(或其预测或数据)更容易被人类理解。这些约束会根据域的不同而有很大的不同。
原则2:尽管有常见的修辞,但可解释的模型不一定能创造或促成信任——它们也可能导致不信任。它们只是让用户决定是否信任它们。换句话说,他们允许信任的决定,而不是信任本身。
原则3:重要的是,不要假设一个人需要牺牲准确性来获得可解释性。事实上,可解释性往往会带来准确性,而不是相反。在机器学习中,可解释性和准确性通常是一个错误的二分法。
原则4:作为整个数据科学过程的一部分,性能指标和可解释性指标都应该被反复地改进。
原则5:对于高风险的决策,如果可能的话,应该使用可解释的模型,而不是“解释”的黑盒模型
在这项综述中,我们希望为读者提供一个途径进入可解释机器学习的重要主题。目前有关可解释和可解释AI的文献可能会让人非常困惑。参与这一领域研究的个体多样性不仅包括统计学家和计算机科学家,还包括法律专家、哲学家和研究生,其中许多人从未建立或部署过机器学习模型。人们很容易低估说服别人在实践中使用机器学习模型的难度,而可解释性是一个关键因素。过去几年的许多工作都贡献了新的术语,错误地将旧的可解释机器学习领域纳入了新的领域“XAI”,而且评论论文普遍未能真正区分解释黑箱和设计可解释模型的基本概念。因为有误导性的术语,标题为“可解释性(explainability)”的论文有时是关于“可解释性(interpretability)”,反之亦然,所以很难理解文献(即使是我们)。至少,我们希望介绍一些基本原则,涵盖该领域的几个重要领域,并展示它们彼此之间的关系和与实际问题的关系。显然,这是一个我们无法真正涵盖的巨大领域,但我们希望我们涵盖的不同领域和提出的问题可能对那些需要进入这个迷宫的人有用。