作者 Christoph Molnar 在 2019 年 2 月 22 日刚完成的关于「可解释的机器学习」的一本新书,我还在读并第一时间分享给公众号读者。
机器学习的可解释性真的重要,想想以下在无人驾驶、金融和医疗的几个情景:
无人驾驶车撞了人如何解释
信用卡拒了个非洲裔如何解释
癌症诊断的结果如何解释
此外,自从欧盟的通用数据保护条例 (General Data Protection Regulation, GDPR) 在 2018 年 5 月 25 日生效之后,机器学习过程需要变得透明而可解释,因为 GDPR 中的第 13 至 15 条规定公司有义务提供对个人算法决策的详细解释或关于算法如何作出决定的一般信息。我个人认为是时候该了解一下「计算学习理论」和「深度学习理论」了。
计算学习理论:可参考之前写的「计算学习理论」一贴,当一个模型的 VC 维度是有限时,大的训练数据是可以使得训练误差约等于真实误差的,那么只需要把精力放在如果降低训练误差。
深度学习理论:有兴趣的读者可以参考斯坦福大学的相关课程 [1],主要通过逼近理论 (universal approximation theorem) 和调和分析 (harmonic analysis) 来建立神经网络背后的理论体系。此外希伯来大学计算机科学家和神经学家 Naftali Tishby 等人提出了一种叫做「信息瓶颈」[2] 的理论不但能够解释深度学习的根本原理,还能解释人类学习过程。
Christoph Molnar 这本书主要偏重于「结构性数据」 (structured data) 的机器学习模型的可解释性,如线性回归、对率回归、决策树、朴素贝叶斯、K 近邻等。这类数据就像 pandas 里面的数据表 (dataframe),其中
每一行是一个观察值 (observation)
每一列是一个特征 (feature)
对于「非结构性数据」(unstructured data) 的深度学习模型的可解释性,比如用于计算机视觉的图片和视屏,用于自然语言处理的文本,这本书没有提到。也许是他下一本书的内容。
参考资料
[1] https://stats385.github.io/
[2] Opening the black box of Deep Neural Networksvia Information, Ravid Schwartz-Ziv, NaftaliTishby, 29 Apr 2017, arXiv:1703.00810v3
按二维码关注王的机器
迟早精通机学金工量投