数据科学的下一个「超能力」：模型可解释性

会员服务 ·

数据科学的下一个「超能力」：模型可解释性

2019 年 3 月 27 日 机器之心

选自towardsdatascience

作者：Dan Becker

机器之心编译

参与：李诗萌、Chita

很多人重视重视模型的预测能力，却忽略了模型可解释性的重要性，只知其然而不知其所以然。为什么说模型的可解释性这么重要呢？作者就 5 个方面对此进行了阐述。

模型的可解释性能够展示你的模型在学什么，并且观察模型内部比大多数人想的更有用。

在过去的 10 年间，我采访了许多数据科学家，模型的可解释性是我最喜欢的主题，我用它来区分最好的数据科学家和一般的数据科学家。

有些人认为机器学习模型是黑箱，能做出预测但无法理解；可是最好的数据科学家可以通过任何模型洞察真实世界。给出任何模型，这些数据科学家都可以轻松地回答下面的问题：

模型认为数据中最重要的特征是什么
就模型的任何单个预测结果而言，数据中的每个特征是如何影响这一预测结果的
特征之间什么样的相互作用对模型预测产生的影响最大

这些问题的答案比大多数人认为的要有意义。受此启发，我在 Kaggle 上开设了模型可解释性的微课程。无论你是通过 Kaggle 还是其他的综合性资源（比如《统计学习基础（Elements of Statistical Learning）》）进行学习，这些技术都将彻底地改变你构建、验证和部署机器学习模型的方式。

为什么这些洞察结果很有价值？

模型洞察结果的五个最重要应用是：

调试
指导特征工程
指导未来数据的收集方向
指导人类做出决策
建立信任

调试

这个世界中存在很多不可靠的、杂乱无章且具有大量噪声的数据。当你写下预处理代码时，你就添加了潜在的错误源头。加上目标泄漏的可能性，在真实的数据科学项目中，在某个点出现错误是正常的，而非例外。

鉴于错误的频率以及潜在的灾难性后果，调试成为了数据科学中最有价值的技能之一。理解模型正在寻找的模式有助于你确定模型何时与你对现实世界的了解不一致，这一般都是追踪错误的第一步。

指导特征工程

特征工程一般是提高模型准确率的最有效方法。特征工程通常包括转换原始数据或之前创建的特征来反复创建新特征。

有时候你可以仅凭对基本主题的直觉来完成这个过程。但是当原始特征有 100 多个或者你缺乏手头项目的背景知识时，你就需要更多指导了。

Kaggle 竞赛中有道题是关于预测贷款违约的，这就是一个极端的例子。这道题中有 100 多个原始特征。出于隐私原因，这些特征没用常见的英文名字，而是用 f1、f2、f3 这样的代号命名的。这就模拟了一个你不怎么了解原始数据的场景。

一名参赛者发现了 f527~f528 这两个特征之间的差异，从而创建了强大的新特征。将这一差异作为特征的模型比没有这个特征的模型要好得多。但是当变量有数百个时，你怎么能想到创建这个变量呢？

你在这门课程中学到的技巧能让你轻易分辨出 f527 和 f528 是重要特征，而且它们是有紧密关联的。这会指导你考虑转换这两个变量，从而找到 f527-f528 的「黄金特征」。

现在的数据集动辄就有成百上千个原始特征，因此这个方法的重要性与日俱增。

指导未来数据的收集方向

你无法控制在线下载的数据集。但许多使用数据科学的企业和组织都有机会扩大他们收集数据的类型。收集新类型的数据又贵又不方便，所以他们只会收集值得费力气的数据。基于模型的洞察结果可以让你更好地理解当前特征的价值，这将帮助你推断出哪些新价值是最有用的。

指导人类做出决策

有些决策是由模型自动做出的——当你登录亚马逊时，网站没有人在仓促间决定给你展示什么内容。但是有很多重要的决定必须要由人类来做。就这些决策而言，模型的洞察能力比预测能力更有价值。

建立信任

在没有验证基本事实的情况下，人们不会相信你的模型，也就不会根据你的模型做出重要的决策。就数据出错的频率而言，这是明智的预防措施。在实践中，展示符合他们一般认知的洞察结果有助于建立用户对模型的信任，即便这些用户对数据科学知之甚少也没关系。

原文链接：https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

模型可解释性

关注 6

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

134+阅读 · 2020年6月7日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

131+阅读 · 2020年5月14日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

379+阅读 · 2020年5月10日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具

专知会员服务

103+阅读 · 2020年3月8日

《可解释的机器学习-interpretable-ml》238页pdf

专知会员服务

208+阅读 · 2020年2月24日

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

216+阅读 · 2020年2月21日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

专知会员服务

37+阅读 · 2019年12月26日

可解释机器学习（Interpretable Machine Learning）：打开黑盒之谜（238页书籍下载）

专知会员服务

152+阅读 · 2019年10月27日

除了Kaggle，这里还有一些高质量的数据科学竞赛平台

机器之心

8+阅读 · 2019年4月16日

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

可解释的机器学习

平均机器

25+阅读 · 2019年2月25日

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

已删除

将门创投

3+阅读 · 2018年4月10日

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

数据科学与机器学习数据集

Datartisan数据工匠

8+阅读 · 2017年12月14日

已删除

将门创投

9+阅读 · 2017年7月28日

On Feature Normalization and Data Augmentation

Arxiv

15+阅读 · 2020年2月25日

The Measure of Intelligence

Arxiv

7+阅读 · 2019年11月5日

CapsAttacks: Robust and Imperceptible Adversarial Attacks on Capsule Networks

Arxiv

4+阅读 · 2019年5月24日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Lipschitz Generative Adversarial Nets

Arxiv

8+阅读 · 2019年2月15日

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Sounderfeit: Cloning a Physical Model with Conditional Adversarial Autoencoders

Arxiv

4+阅读 · 2018年2月22日

Understanding Chatbot-mediated Task Management

Arxiv

10+阅读 · 2018年2月9日

VIP会员