【推荐】Python机器学习生态圈(Scikit-Learn相关项目)

2017 年 8 月 23 日 机器学习研究会


点击上方 “机器学习研究会”可以订阅
摘要
 

转自:爱可可-爱生活

Projects implementing the scikit-learn estimator API are encouraged to use the scikit-learn-contrib template which facilitates best practices for testing and documenting estimators. The scikit-learn-contrib GitHub organisation also accepts high-quality contributions of repositories conforming to this template.

Below is a list of sister-projects, extensions and domain specific packages.

Interoperability and framework enhancements

These tools adapt scikit-learn for use with other technologies or otherwise enhance the functionality of scikit-learn’s estimators.

Data formats

  • sklearn_pandas bridge for scikit-learn pipelines and pandas data frame with dedicated transformers.

Auto-ML

  • auto_ml Automated machine learning for production and analytics, built on scikit-learn and related projects. Trains a pipeline wth all the standard machine learning steps. Tuned for prediction speed and ease of transfer to production environments.

  • auto-sklearn An automated machine learning toolkit and a drop-in replacement for a scikit-learn estimator

  • TPOT An automated machine learning toolkit that optimizes a series of scikit-learn operators to design a machine learning pipeline, including data and feature preprocessors as well as the estimators. Works as a drop-in replacement for a scikit-learn estimator.

Experimentation frameworks

  • REP Environment for conducting data-driven research in a consistent and reproducible way

  • ML Frontend provides dataset management and SVM fitting/prediction through web-based and programmaticinterfaces.

  • Scikit-Learn Laboratory A command-line wrapper around scikit-learn that makes it easy to run machine learning experiments with multiple learners and large feature sets.

  • Xcessiv is a notebook-like application for quick, scalable, and automated hyperparameter tuning and stacked ensembling. Provides a framework for keeping track of model-hyperparameter combinations.

Model inspection and visualisation

  • eli5 A library for debugging/inspecting machine learning models and explaining their predictions.

  • mlxtend Includes model visualization utilities.

  • scikit-plot A visualization library for quick and easy generation of common plots in data analysis and machine learning.

  • yellowbrick A suite of custom matplotlib visualizers for scikit-learn estimators to support visual feature analysis, model selection, evaluation, and diagnostics.

Model export for production

  • sklearn-pmml Serialization of (some) scikit-learn estimators into PMML.

  • sklearn2pmml Serialization of a wide variety of scikit-learn estimators and transformers into PMML with the help of JPMML-SkLearn library.

  • sklearn-porter Transpile trained scikit-learn models to C, Java, Javascript and others.

  • sklearn-compiledtrees Generate a C++ implementation of the predict function for decision trees (and ensembles) trained by sklearn. Useful for latency-sensitive production environments.

Other estimators and tasks

Not everything belongs or is mature enough for the central scikit-learn project. The following are projects providing interfaces similar to scikit-learn for additional learning algorithms, infrastructures and tasks.

Structured learning

  • Seqlearn Sequence classification using HMMs or structured perceptron.

  • HMMLearn Implementation of hidden markov models that was previously part of scikit-learn.

  • PyStruct General conditional random fields and structured prediction.

  • pomegranate Probabilistic modelling for Python, with an emphasis on hidden Markov models.

  • sklearn-crfsuite Linear-chain conditional random fields (CRFsuite wrapper with sklearn-like API).

Deep neural networks etc.

  • pylearn2 A deep learning and neural network library build on theano with scikit-learn like interface.

  • sklearn_theano scikit-learn compatible estimators, transformers, and datasets which use Theano internally

  • nolearn A number of wrappers and abstractions around existing neural network libraries

  • keras Deep Learning library capable of running on top of either TensorFlow or Theano.

  • lasagne A lightweight library to build and train neural networks in Theano.

Broad scope

  • mlxtend Includes a number of additional estimators as well as model visualization utilities.

  • sparkit-learn Scikit-learn API and functionality for PySpark’s distributed modelling.

Other regression and classification

  • xgboost Optimised gradient boosted decision tree library.

  • lightning Fast state-of-the-art linear model solvers (SDCA, AdaGrad, SVRG, SAG, etc…).

  • py-earth Multivariate adaptive regression splines

  • Kernel Regression Implementation of Nadaraya-Watson kernel regression with automatic bandwidth selection

  • gplearn Genetic Programming for symbolic regression tasks.

  • multiisotonic Isotonic regression on multidimensional features.

Decomposition and clustering

  • lda: Fast implementation of latent Dirichlet allocation in Cython which uses Gibbs sampling to sample from the true posterior distribution. (scikit-learn’s sklearn.decomposition.LatentDirichletAllocation implementation uses variational inference to sample from a tractable approximation of a topic model’s posterior distribution.)

  • Sparse Filtering Unsupervised feature learning based on sparse-filtering

  • kmodes k-modes clustering algorithm for categorical data, and several of its variations.

  • hdbscan HDBSCAN and Robust Single Linkage clustering algorithms for robust variable density clustering.

  • spherecluster Spherical K-means and mixture of von Mises Fisher clustering routines for data on the unit hypersphere.

Pre-processing

  • categorical-encoding A library of sklearn compatible categorical variable encoders.

  • imbalanced-learn Various methods to under- and over-sample datasets.

Statistical learning with Python

Other packages useful for data analysis and machine learning.

  • Pandas Tools for working with heterogeneous and columnar data, relational queries, time series and basic statistics.

  • theano A CPU/GPU array processing framework geared towards deep learning research.

  • statsmodels Estimating and analysing statistical models. More focused on statistical tests and less on prediction than scikit-learn.

  • PyMC Bayesian statistical models and fitting algorithms.

  • Sacred Tool to help you configure, organize, log and reproduce experiments

  • Seaborn Visualization library based on matplotlib. It provides a high-level interface for drawing attractive statistical graphics.

  • Deep Learning A curated list of deep learning software libraries.



链接:

http://scikit-learn.org/stable/related_projects.html?url_type=39&object_type=webpage&pos=1


原文链接:

https://m.weibo.cn/1402400261/4143812408674859

“完整内容”请点击【阅读原文】
↓↓↓
登录查看更多
6

相关内容

Scikit-learn项目最早由数据科学家David Cournapeau 在2007 年发起,需要NumPy和SciPy等其他包的支持,是Python语言中专门针对机器学习应用而发展起来的一款开源框架。
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
推荐 | 机器学习开源项目 Top 10
AI100
3+阅读 · 2018年3月21日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
精选Top30!最实用的python开源项目都在这里
乌镇智库
4+阅读 · 2018年1月26日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
12+阅读 · 2018年9月5日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关VIP内容
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
推荐 | 机器学习开源项目 Top 10
AI100
3+阅读 · 2018年3月21日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
精选Top30!最实用的python开源项目都在这里
乌镇智库
4+阅读 · 2018年1月26日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关论文
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
12+阅读 · 2018年9月5日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
5+阅读 · 2017年7月23日
Top
微信扫码咨询专知VIP会员