随着机器学习黑盒越来越多地部署在医疗保健和刑事司法等领域,人们越来越重视构建工具和技术,以事后方式解释这些黑盒。这些解释正被领域专家用来诊断系统性错误和黑盒的潜在偏见。然而,最近的研究揭示了流行的事后解释技术的弱点。在本教程中,我将简要概述事后解释方法,特别强调特征归因方法,如LIME和SHAP。然后,我将讨论最近的研究,这些研究表明,这些方法是脆弱的,不稳定的,并容易受到各种对抗性攻击。最后,我将提出两种解决方案,以解决这些方法的一些漏洞:(I)一个基于对抗性训练的通用框架,旨在使事后解释更稳定,更鲁棒,以应对底层数据的变化,(ii) 贝叶斯框架,捕获与事后解释相关的不确定性,从而允许我们生成满足用户指定的置信水平的可靠解释。总的来说,本教程将提供可解释机器学习这一新兴领域的最新技术的概述。