曾几何时,在许多人看来,人工智能似乎是终极科幻小说。然而,自 20 世纪 50 年代起,人工智能就开始慢慢受到重视,主要表现为在大型系统中悄然生存的小型专业程序。值得注意的是,在过去的 10 年中,这种缓慢的进步已经变成了闪电般的快速发展。如今,人工智能的应用几乎遍及我们生活的方方面面,甚至在艺术领域也是如此!
人类的许多互动和交流都已数字化。因此,我们正在接受前所未有的调查。每一次数字互动都会留下痕迹,这些痕迹可以用来为学习算法提供素材。谷歌和 Meta 等公司通过交换服务来换取个人数据。虽然这些公司并不直接出售用户数据,但它们允许其他公司通过广告服务与用户数据互动。政府机构和银行等其他组织也可以获取个人数字信息。敏感数据被大规模记录并用于训练人工智能算法。在我们生活的世界里,我们的数字行为会对现实世界产生影响。作为人类,我们产生的数据被输入到算法中,以产生可操作的结果。
现代人工智能可应用于现实世界的问题,并产生可操作的结果。本论文重点讨论的人工智能类型称为深度学习(DL),其灵感来源于人类大脑处理信息的方式。深度学习模型从数据集中的模式中学习。深度学习的一般经验法则是:数据越多越好: 数据越多越好。但并非所有数据都是好数据,因为数据的质量也很重要。我们将在几章中讨论这个话题,并讨论偏差如何通过数据集和标签传播(第3章),以及数据泄露如何使实验结果出现偏差(第6章)。深度学习正被应用于各种高风险领域,如军事[Lundén and Koivunen, 2016]、执法[Goswami et al., 2014]和金融[Chong et al., 2017]等等。在这些领域,深度学习算法必须是可信的 。作为 DNN 从业者和领域专家,我们需要了解算法预测背后的推理。如果每一个深度学习预测都附有关于该预测如何得出的解释,我们就能更好地判断深度学习系统的可信度。其原理大致是这样的: 如果深度学习系统能够解释其预测,我们就可以仔细研究该预测,并决定是否要将其纳入考虑范围。如果我们一再决定考虑系统的预测,我们就会越来越信任系统,就像一个人越来越信任另一个人一样。换句话说,随着时间的推移,我们会调整对深度学习系统的信任。使深度学习的解释变得尤为紧迫的是,深度学习带来了前所未有的能力,而且人们预期深度学习将变得更加强大和广泛。
试想一下,如果一个关键系统(如金融应用程序)决定某些(弱势)用户需要支付高得多的费率,但却不提供任何解释。无论如何,用户有权知道他们为什么需要支付更高的费用。当弱势群体面临风险时,了解其中的原因就变得更加重要,因为一个错误的系统决策可能会决定一个人能否养家糊口。金融机构也有责任向用户提供解释。其次,还有一个重大的责任问题。如果出现错误,谁该负责,他们又该如何弥补损失?自动预测的结果来自各种因素,包括不正确的因素,如数据中存在偏差的相关性。如果不了解系统的推理过程,就很难纠正可能的错误或为特定决策提供正当理由。一旦我们考虑到这些因素,在关键应用中对可解释深度学习的需求就会变得显而易见。
图 1.1: 日常行为和互动如何通过信息处理管道传播,并最终在现实世界中以有形结果的形式反馈给我们的简化视图。该图将模拟管道与数字管道进行了比较。主要区别在于,我们正越来越多地将决策能力交给人工智能算法。围绕着两个数字阶段的粉色矩形轮廓表明了本论文在这一管道中的位置和重点。
人们通常认为,深度学习在其他领域(如智能手机、广告、内容推荐)的应用不太值得解释。一般来说,有两种观点支持这种看法。第一种观点认为,上述应用风险较低,正因为风险较低,所以其决策不值得仔细研究。起初,关键算法决策似乎无法与社交媒体算法决策等相提并论。然而,在深度学习决定了数字工具的实用性、我们购买哪些产品、我们消费哪些信息的世界里,深度学习会极大地影响一个人的自我形象以及他与世界的互动方式。因此,如果我们想对自己的生活有任何有意义的控制,了解算法决策背后的原因是至关重要的。所有深度学习的决定都必须经过严格审查。
第二个论点将深度学习技术与飞机等其他常用技术进行了比较。它的推论是,由于我们无法百分之百地解释某些常用技术的确切工作原理,而我们却能应付自如,因此我们也可以不解释深度学习。从空气动力学的角度来看,我们大致知道飞机是如何保持飞行的。然而,在这种相互作用中,有一个关键现象我们仍然无法解释。这种说法是杞人忧天: 无法百分之百地解释飞机是如何保持上升状态的,并不意味着我们应该不解释深度学习。相反,我们应该尽力解释深度学习模型是如何工作的。
假设读者您相信深度学习需要解释,那么可能会问,为什么整个领域都在关注这个话题?为什么我们不能简单地解释深度学习呢?与支持向量机、线性回归或决策树等其他机器学习(ML)方法不同,DNN 实践者无法通过查看深度学习模型的内部参数,轻松推断出 DL 模型决策背后的数学推理。深度学习模型拥有数百万(如今已达数十亿)个参数的情况并不少见。为了解决这个问题,DNN 从业人员正在设计能捕捉模型预测背后推理的方法。该领域要解决的另一个问题是确定向用户提供解释的形式。即使 DNN 从业人员能够理解,也不能保证领域专家能够以相同的详细程度解释解释。该领域正在努力达成一致的第三个更具哲学意义的问题是,在更广泛的 ML 范畴内,解释究竟是什么。这一点非常重要,因为解释的定义会影响 DNN 实践者设计的方法。本论文考虑了用于解释深度学习的方法。
本论文主要从校准信任的角度来考虑解释的必要性。在[van den Brule 等人,2014]一文中,为人机交互构建了校准信任的概念: 机器人外观所传达的可信度应与机器人任务表现所产生的信任度保持一致。当两者不一致时,机器人就会被人类低估或过度信任。这一概念可以推广到任何人工推理系统中。将这一概念应用到 XAI 中,我们可以指出 人工智能预测的可信度应与人工智能的任务表现和相应解释所产生的信任度相一致。如果两者不一致,用户对人工智能的信任度就会过低或过高。要判断某个人工智能是否值得信任,我们首先需要获得必要的信息。也就是说,模型应该是透明的、可访问的。如果用户多次收到人工智能的行为符合他们期望的迹象,用户就可以校准他们对人工智能的信任度[Jacovi 等人,2021 年;Glikson 和 Woolley,2020 年]。用户应了解人工智能及其决策方式,以校准他们对模型的信任度。对模型决策进行解释的方法应该是忠实的、通用的,并且具有很强的解释能力,见第 2 章。如果解释方法符合这些标准,那么知情者就能充分校准他们对人工智能的信任度。
细心的读者很快就会发现,可解释人工智能(XAI)似乎有不同的方法。就其最一般的形式而言,解释是任何有助于我们理解模型预测的信息。这些信息可以是输入的一部分、模型本身的一部分、输出的一部分、三者的结合以及对模型目的或背景的考虑。根据我们选择研究的信息类型,我们可以对模型提出不同的问题,得出不同类型的结论,从而从不同的角度研究解释。本论文并不局限于某一特定类型的解释,而是首先为读者提供了一个关于该主题的广阔视角(第 2 章和第 3 章),然后举例说明了实验模型层面的解释(第 5 章和第 6 章)。迄今为止,XAI有两种流行的方法:
1.实例层面的解释: 这种方法也被称为局部解释,是这两种方法中研究最多的一种,它提出的问题是 "既然有这样的输入,为什么模型会预测出这样的输出?回答了这个问题,我们就找到了输入中可能影响模型决策的区域。然而,这类解释只对特定输入有效。此外,其质量和解释力(见第 2 章)取决于所使用的 XAI 方法。例如,使用与模型无关的 XAI 方法可为我们指出输入中的相关区域,但它不会告诉我们预测背后的推理涉及模型逻辑的哪些方面。这类 XAI 方法实质上是将模型视为一个黑盒子。但如果我们使用基于梯度的 XAI 方法,我们就能看到数据在被模型处理时所经历的一系列转换。
2.模型层面的解释: 这种方法也被称为全局解释,它提出的问题是:"鉴于此数据集,模型是否显示出任何明显的(如有偏差的)行为,如果是,这是为什么?这种方法比前一种方法更费力,但可以说更强大,因为它可以泛化到未见过的输入。采用这种方法的 XAI 方法可让我们推断出模型在新输入时的行为,并让我们检测出模型中的偏差。基于树的 XAI 方法就是提供模型层面解释的一个例子。
如果我们要不断接受调查,如果我们的数据将被复杂的算法用来塑造我们周围的世界,我们就需要了解数据的哪些方面会导致哪些决策。本论文的主要贡献是对可解释的深度学习的现状进行深度分析,从一个很高的层次出发,确定该领域的主要利益相关者,创建 XAI 方向分类法,并确定相关主题和挑战。在最后三章中,我们将研究可解释的 DL 的具体应用案例。
在本论文中,每一章都从不同角度探讨了可解释深度学习这一主题: 第 2 章从用户角度探讨了可解释性这一主题,并研究了各种利益相关者在这一环境中的作用。第3章介绍了一份全面的现场指南,向该领域的新手介绍了可解释深度学习这个密集的话题,但这些新手之前已有深度学习方面的经验。本领域指南概述了可解释深度学习的所有相关方面,从方法到伦理考虑,并将可解释性作为校准深度学习预测信任度的框架。第4章介绍了一种新颖、更透明的三维卷积神经网络变体,后来被称为3TConv,并介绍了一项研究,该研究表明3TConvs的性能可以与普通的三维卷积相媲美。本章为第五章将要介绍的工作做了铺垫。第 5 章以第 4 章为基础,展示了如何利用 3TConvs 深入了解网络的内部运作。第 6 章介绍了一项研究,我们在其中分析并试图解释图像背景对深度残差网络预测明显个性的影响有多大。
我们想在整篇论文中强调的信息是,深度学习中的解释是复杂的,需要考虑很多方面。我们不能盲目相信深度学习的预测,相反,对深度学习系统的信任需要校准。除非我们愿意满足于与模型无关的、对模型内部工作原理知之甚少的解释,否则目前还没有实现一刀切解释的捷径方法。当前的 XAI 方法本身需要仔细检查,但遗憾的是,目前还没有被广泛接受的衡量标准来确定其保真度和可用性。因此,XAI 仍将是深度学习的核心课题,因为比没有解释更糟糕的是错误的解释。