一文梳理数据科学家必备核心算法与常用模型 - 专知

会员服务 ·

0

一文梳理数据科学家必备核心算法与常用模型

2018 年 5 月 10 日 THU数据派

来源：数据科学DataScience

作者：Colleen M. F.

本文为你盘点数据科学家必备的核心机器学习算法和常用统计模型。

核心算法

回归/分类树
降维（PCA、MDS、tSNE等）
经典的前馈神经网络
Bagging ensembles方法（随机森林、KN N回归集成）
Boostingensembles方法（梯度提升、XGBoost算法）
参数调整或设计方案的优化算法（遗传算法，量子启发式演化算法，模拟退火/simulated annealing，粒子群优化/ particle-swarm optimization）
拓扑数据分析工具，特别适用于小样本量的无监督学习（持续同调/persistent homology，Morse-Smale聚类，Mapper ...）
深度学习架构（通用深度学习架构）
用于局部建模的KNN方法（回归，分类）
基于梯度的优化方法/Gradient-based optimization methods
网络度量/Network metrics和算法（中心度量，跳数，多样性，熵，拉普拉斯算子，疫情传播/epidemic spread，谱聚类/spectral clustering）
深层架构中的卷积和池化层/pooling layers（特别适用于计算机视觉和图像分类模型）
分层聚类（与k均值聚类和拓扑数据分析工具相关）
贝叶斯网络（路径挖掘/pathway mining）
复杂性和动态系统（与微分方程有关）

此外，部分领域还可能需要与自然语言处理、计算机视觉相关算法。

常用模型

广义线性模型（是多数监督机器学习方法的基础，如逻辑回归和Tweedie回归）
时间序列方法（ARIMA，SSA，基于机器学习的方法）
结构方程建模（针对潜变量之间关系进行建模）
因子分析（调查设计和验证的探索型分析）
功效分析/试验设计（特别是基于仿真的试验设计，以避免分析过度）
非参数检验（MCMC）
K均值聚类
贝叶斯方法（朴素贝叶斯，贝叶斯模型平均/Bayesian model averaging，贝叶斯适应性试验/Bayesian adaptive trials等）
惩罚性回归模型（弹性网络/Elastic Net，LASSO，LARS ...）以及对通用模型（SVM，XGBoost ...）加罚分，这对于预测变量多于观测值的数据集很有用,在基因组学和社会科学研究中较为常用）
样条模型/Spline-based models(MARS等）：主要用于流程建模
马尔可夫链和随机过程（时间序列建模和预测建模的替代方法）
缺失数据插补方法及其假设（missForest，MICE ...）
生存分析/Survival analysis（主要特点是考虑了每个观测出现某一结局的时间长短）
混合建模/Mixture modeling
统计推断和组群测试（A/B测试以及用于营销活动的更复杂的方法）

备注：

1.本文原作者：Colleen M. Farrelly，源文URL:

https://www.kdnuggets.com/2018/04/ key-algorithms-statistical-models-aspiring-data-scientists.html

2.本文由朝乐门负责翻译与编辑。

3.欢迎文末留言提出补充和修改意见。

登录查看更多

16

相关内容

数据科学家

数据科学家

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

414+阅读 · 2020年6月8日

【干货书】Python统计学分析应用，285页pdf讲述在生命科学领域的应用

【干货书】Python统计学分析应用，285页pdf讲述在生命科学领域的应用

专知会员服务

142+阅读 · 2020年6月2日

手写实现李航《统计学习方法》书中全部算法

专知会员服务

142+阅读 · 2020年5月19日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

干货书《数据科学数学系基础》2020最新版，266页pdf

干货书《数据科学数学系基础》2020最新版，266页pdf

专知会员服务

325+阅读 · 2020年3月23日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

131+阅读 · 2020年3月15日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

144+阅读 · 2019年12月1日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

深度学习算法与架构回顾

深度学习算法与架构回顾

专知会员服务

84+阅读 · 2019年10月20日

面经 | 算法工程师面试题汇总

面经 | 算法工程师面试题汇总

极市平台

12+阅读 · 2019年10月14日

Github项目推荐 | 股市预测的机器学习/深度学习模型/资源集锦

Github项目推荐 | 股市预测的机器学习/深度学习模型/资源集锦

AI研习社

32+阅读 · 2019年4月18日

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

人工智能学家

11+阅读 · 2019年2月15日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

【资源】机器学习算法工程师手册（PDF下载）

【资源】机器学习算法工程师手册（PDF下载）

机器学习算法与Python学习

39+阅读 · 2018年10月14日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

机器学习新手必看10大算法

机器学习新手必看10大算法

深度学习世界

4+阅读 · 2018年2月1日

免费｜机器学习算法Python实现

免费｜机器学习算法Python实现

全球人工智能

6+阅读 · 2018年1月2日

课程 | 12个适合机器学习入门的经典案例

课程 | 12个适合机器学习入门的经典案例

AI100

8+阅读 · 2017年9月16日

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

全球人工智能

24+阅读 · 2017年7月14日

Meta-Transfer Learning for Zero-Shot Super-Resolution

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

Logic Rules Powered Knowledge Graph Embedding

Logic Rules Powered Knowledge Graph Embedding

Arxiv

7+阅读 · 2019年3月9日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Deep Convolutional Networks as shallow Gaussian Processes

Arxiv

4+阅读 · 2018年8月16日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Knowledge-based Word Sense Disambiguation using Topic Models

Arxiv

5+阅读 · 2018年1月5日

VIP会员

相关主题

数据科学家

拓扑数据分析

深度学习架构

相关VIP内容

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

414+阅读 · 2020年6月8日

【干货书】Python统计学分析应用，285页pdf讲述在生命科学领域的应用

【干货书】Python统计学分析应用，285页pdf讲述在生命科学领域的应用

专知会员服务

142+阅读 · 2020年6月2日

手写实现李航《统计学习方法》书中全部算法

专知会员服务

142+阅读 · 2020年5月19日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

干货书《数据科学数学系基础》2020最新版，266页pdf

干货书《数据科学数学系基础》2020最新版，266页pdf

专知会员服务

325+阅读 · 2020年3月23日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

131+阅读 · 2020年3月15日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

144+阅读 · 2019年12月1日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

深度学习算法与架构回顾

深度学习算法与架构回顾

专知会员服务

84+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

面经 | 算法工程师面试题汇总

面经 | 算法工程师面试题汇总

极市平台

12+阅读 · 2019年10月14日

Github项目推荐 | 股市预测的机器学习/深度学习模型/资源集锦

Github项目推荐 | 股市预测的机器学习/深度学习模型/资源集锦

AI研习社

32+阅读 · 2019年4月18日

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

人工智能学家

11+阅读 · 2019年2月15日

Deeplearning4j 快速入门

Deeplearning4j 快速入门

人工智能头条

14+阅读 · 2018年12月24日

【资源】机器学习算法工程师手册（PDF下载）

【资源】机器学习算法工程师手册（PDF下载）

机器学习算法与Python学习

39+阅读 · 2018年10月14日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

机器学习新手必看10大算法

机器学习新手必看10大算法

深度学习世界

4+阅读 · 2018年2月1日

免费｜机器学习算法Python实现

免费｜机器学习算法Python实现

全球人工智能

6+阅读 · 2018年1月2日

课程 | 12个适合机器学习入门的经典案例

课程 | 12个适合机器学习入门的经典案例

AI100

8+阅读 · 2017年9月16日

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

全球人工智能

24+阅读 · 2017年7月14日

相关论文

Meta-Transfer Learning for Zero-Shot Super-Resolution

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

Logic Rules Powered Knowledge Graph Embedding

Logic Rules Powered Knowledge Graph Embedding

Arxiv

7+阅读 · 2019年3月9日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Deep Convolutional Networks as shallow Gaussian Processes

Arxiv

4+阅读 · 2018年8月16日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Knowledge-based Word Sense Disambiguation using Topic Models

Arxiv

5+阅读 · 2018年1月5日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员