论文题目: Definitions, methods, and applications in interpretable machine learning
论文摘要:
机器学习模型在学习复杂模式方面取得了巨大的成功,这些模式使机器能够对未观察到的数据做出预测。除了使用模型进行预测外,解释模型所学内容的能力正受到越来越多的关注。然而,这种关注的增加导致了对可解释性概念的相当大的混淆。特别是,目前还不清楚所提出的各种解释方法是如何相互联系的,以及可以用什么共同的概念来评价这些方法。我们的目标是通过定义机器学习环境中的可解释性,并引入预测、描述和相关(PDR)框架来讨论解释性,从而解决这些问题。PDR框架为评估提供了3个主要的需求:预测准确性、描述准确性和相关性,以及相对于人类受众判断的相关性。此外,为了帮助管理大量的解释方法,我们将现有的技术分为基于模型的和特定的类别,包括稀疏性、模块化性和可模拟性。为了证明从业者如何使用PDR框架来评估和理解解释,我们提供了大量的实际例子。这些例子突出了人类观众在讨论可解释性时常常被低估的作用。最后,基于我们的框架工作,我们讨论了现有方法的局限性和未来工作的方向。我们希望这项工作将提供一个共同的词汇,使从业者和研究人员更容易地讨论和选择全面的解释方法。
论文作者:
W. James Murdoch是加州大学伯克利分校研究生,研究兴趣为可解释性,机器学习,自然语言处理和因果推理。
Chandan Singh在伯克利攻读博士学位,研究计算系统,研究范围是机器学习、可解释性、计算神经科学。