关于Scikit-Learn你（也许）不知道的10件事

会员服务 ·

关于Scikit-Learn你（也许）不知道的10件事

2020 年 8 月 4 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要6分钟

跟随小博主，每天进步一丢丢

作者 | Rebecca Vickery

原文 | 见页面左下角『阅读原文』

编译 | NewBeeNLP公众号

写在前面

Scikit-learn是使用最广泛的Python机器学习库之一。它有标准化和简单的接口，用于数据预处理和模型训练、优化以及评估。

这个项目最初是由David Cournapeau 开发的Google Summer of Code 项目，并于2010年首次公开发布。自创建以来，该库已经发展成为一个丰富的生态系统，用于开发机器学习模型。随着时间的推移，该项目开发了许多方便的功能，以增强其易用性。在本文中，我将介绍你可能不知道的10个关于Scikit-learn最有用的特性。

1. 内置数据集

Scikit-learn API内置了各种toy和real-world数据集^[1]。这些可以便捷地通过一行代码访问，如果你正在学习或只是想快速尝试新功能，这会非常有用。

你还可以使用make_regression()、make_blobs()和make_classification()生成合成数据集。所有加载实用程序都提供了返回已拆分为X（特征）和y（目标）的数据选项，以便它们可以直接用于训练模型。

2. 获取公开数据集

如果你想直接通过Scikit-learn访问更多的公共可用数据集，请了解，有一个方便的函数datasets.fetch_openml，可以让您直接从openml.org网站^[2]获取数据。这个网站包含超过21000个不同的数据集，可以用于机器学习项目。

3. 内置分类器来训练baseline

在为项目开发机器学习模型时，首先创建一个baseline模型是非常有必要的。这个模型在本质上应该是一个“dummy”模型，比如一个总是预测最频繁出现的类的模型。这就提供了一个基准，用来对你的“智能”模型进行基准测试，这样你就可以确保它的性能比随机结果更好。

Scikit learn包括用于分类任务的DummyClassifier() 和用于基于回归问题的 DummyRegressor()。

4. 内置绘图api

Scikit learn有一个内置的绘图API，允许你在不导入任何其他库的情况下可视化模型性能。包括以下绘图：部分相关图、混淆矩阵、精确召回曲线和ROC曲线。

5. 内置特征选择方法

提高模型性能的一种技术是只使用最好的特征集或通过删除冗余特征来训练模型。这个过程称为特征选择。

Scikit learn有许多函数来执行特征选择。一个示例为 SelectPercentile()，该方法根据所选的统计方法选择性能最好的X百分位特征进行评分。

6. 机器学习pipeline

除了为机器学习提供广泛的算法外，Scikit learn还具有一系列用于「预处理」和「转换数据」的功能。为了促进机器学习工作流程的再现性和简单性，Scikit learn创建了管道（pipeline），允许将大量预处理步骤与模型训练阶段链接在一起。

管道将工作流中的所有步骤存储为单个实体，可以通过「fit」和「predict」方法调用该实体。在管道对象上调用fit方法时，预处理步骤和模型训练将自动执行。

7. ColumnTransformer

在许多数据集中，你将拥有不同类型的特征，需要应用不同的预处理步骤。例如，可能有分类数据和连续数据的混合，你可能希望通过one-hot编码将分类数据转换为数字，并缩放数字变量。

Scikit-learn管道有一个名为ColumnTransformer的函数，它允许你通过索引或指定列名来轻松指定要对哪些列应用最适当的预处理。

8. 管道的HTML形式

管道通常会变得非常复杂，尤其是在处理真实世界的数据时。因此，scikit-learn提供了一种方法来输出管道中步骤的HTML图表^[3]，非常方便。

9. 可视化树模型

plot_tree() 函数允许你创建决策树模型中的步骤图。

10. 丰富的第三方扩展

许多第三方库可以更好地扩展scikit-learn的特性。举个栗子，category-encoders库，它为分类特性提供了更大范围的预处理方法，以及ELI5包以实现更大的模型可解释性。这两个包也可以直接在Scikit-learn管道中使用。

本文参考资料

[1]

toy和real-world数据集: https://scikit-learn.org/stable/datasets/index.html

[2]

openml.org网站: https://www.openml.org/home

[3]

HTML图表: https://scikit-learn.org/stable/modules/compose.html#visualizing-composite-estimators

- END -

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

整理不易，还望给个在看！

登录查看更多

相关内容

Scikit-learn

关注 6

Scikit-learn项目最早由数据科学家David Cournapeau 在2007 年发起，需要NumPy和SciPy等其他包的支持，是Python语言中专门针对机器学习应用而发展起来的一款开源框架。

【2020新书】使用SAS Studio学习数据科学，这是一个快速入门指南

专知会员服务

17+阅读 · 2020年10月2日

【干货书】Python高级数据科学分析，424页pdf

专知会员服务

117+阅读 · 2020年8月7日

【2020新书】深度学习计算机视觉，467页pdf用Python实战OpenCV和TensorFlow

专知会员服务

182+阅读 · 2020年7月17日

【实用书】Python机器学习Scikit-Learn应用指南，247页pdf

专知会员服务

270+阅读 · 2020年6月10日

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知会员服务

175+阅读 · 2020年6月4日

【2020新书】《“一行”Python：如何写出精炼的Python代码》，216页pdf

专知会员服务

252+阅读 · 2020年4月19日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

131+阅读 · 2020年3月15日

使用TensorFlow建立深度学习模型，563页pdf，Deep Learning Pipeline Building a Deep Learning Model with TensorFlow

专知会员服务

149+阅读 · 2020年1月2日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

143+阅读 · 2019年12月1日

《Hands-On Machine Learning with Scikit-Learn and TensorFlow》Scikit-Learn与TensorFlow机器学习实用指南

专知会员服务

65+阅读 · 2019年10月27日

21个必须知道的机器学习开源工具！

AI100

13+阅读 · 2019年9月13日

sklearn 与分类算法

人工智能头条

7+阅读 · 2019年3月12日

资源 | 《Scikit-Learn与TensorFlow》中文精要

AI研习社

25+阅读 · 2018年9月21日

Scikit-learn玩得很熟了？这些功能你都知道吗？

大数据文摘

4+阅读 · 2018年5月13日

关于机器学习，你需要知道的三件事！

云栖社区

3+阅读 · 2018年3月3日

如何用sklearn创建机器学习分类器？这里有一份上手指南

量子位

11+阅读 · 2018年1月17日

Kaggle爆文：一个框架解决几乎所有机器学习问题

机械鸡

3+阅读 · 2017年10月19日

用 Scikit-Learn 和 Pandas 学习线性回归

Python开发者

9+阅读 · 2017年9月26日

解决机器学习问题有通法！看这一篇就够了！

大数据文摘

4+阅读 · 2017年9月18日

【机器学习】推荐13个机器学习框架

产业智能官

8+阅读 · 2017年9月10日

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Arxiv

3+阅读 · 2019年4月9日

Deep learning for time series classification: a review

Arxiv

12+阅读 · 2019年3月14日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

Knowledge-enriched Two-layered Attention Network for Sentiment Analysis

Arxiv

21+阅读 · 2018年5月25日

Visual Object Tracking: The Initialisation Problem

Arxiv

9+阅读 · 2018年5月22日

Unsupervised Machine Translation Using Monolingual Corpora Only

Arxiv

5+阅读 · 2018年4月13日

Domain Adaptive Faster R-CNN for Object Detection in the Wild

Arxiv

10+阅读 · 2018年3月8日

Textually Customized Video Summaries

Arxiv

4+阅读 · 2018年3月1日

VIP会员