数据科学家 (Data Scientist) 的核心技能是什么?

关注者
6,848
被浏览
1,219,505
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
我总结了11种技能,你可以看看~


No.1 统计学和数学

掌握以下概念:

  • 平均值、中值和众数;
  • 标准差和方差;
  • 相关系数和协方差矩阵
  • 概率分布——二项分布(Binomial),泊松分布(Poisson),正态分布;
  • 假定制(p-value);
  • 贝叶斯定理(Bayes' Theorem')
  • 对混淆矩阵的精度、召回率、正预测值、负预测值、受试者工作特征(ROC)曲线、中心极限定理、R2分数、均方误差、A/B检验和蒙特卡罗模拟(Monte Carlo Simulation)进行分析。


No.2 多元微积分和线性代数

核心线性代数主题包括向量、范数、矩阵、矩阵的转置和操作、点积、特征值和特征向量

矩阵数学和多变量微积分,如导数和梯度,阶跃函数,sigmoid函数,logit函数,成本函数,最小/最大值,纠正线性单位函数和函数绘图的关键。


No.3 优化方法

包括成本和误差函数,快速从大数据中确定值的方法,以及迭代。

掌握的关键领域包括成本函数和目标函数、似然函数和误差函数、梯度下降算法及其变体。


No.4 数据可视化

从数据中获取数字或分类的见解,并以决策者能够理解的方式呈现它们(重要!)

有数据绘制和图表,包括:

  • 直方图;
  • 条形图和面积图,饼形图和折线图,瀑布图,温度计和烛台图;
  • 分割和聚类图;
  • 散点图和气泡图;
  • 分类空间可视化;
  • 探索性数据分析的可视化方法;
  • 框架图和树形图;
  • 漏斗图、文字云、热图、视频和图像注释;
  • 地图和地理空间可视化;
  • 使用各种各样的计量器、度量标准和措施。


No.5 数据处理,准备和争论

大数据访问的经验,包括Hadoop和Spark,SQL和NoSQL方法。使用MongoDB和Postgres等常用数据库的经验。


No.6 数据分析

知道如何构建分析产品,从数据中生成预测、描述和投影结果。

会用Excel、大数据分析工具(如Hadoop和Spark)、商业分析产品(如SAS和MATLAB)以及使用R、Python、Java、Julia和其他语言的开源产品


No.7 机器学习算法、建模与特征工程

了解机器学习算法,包括:

  • 决策树方法(decision trees),随机森林算法,bagged算法和提升树方法(boosted tree);
  • 贝叶斯算法(Bayesian methods);
  • 邻近算法(k-nearest neighbors);
  • 支持向量机(support vector machines);
  • 集成方法(ensemble methods);
  • 群集方法包括k均值( k-means)、高斯混合(gaussian mixture)和主元分析法(principal component analysis);
  • 马尔可夫模型(Markov models);
  • 循环神经网络,卷积神经网络和玻尔兹曼机(Boltzmann machines)。


No.8 编程技能

精通一系列语言,包括Python、R、Julia和基于java的语言,尤其是Python,当然其他也会更好,多多益善。


No.9 分析和大数据处理工具

对处理大数据的平台和框架有一定的了解,包括SQL、Spark、Hadoop、Hive和Pig。


No.10 云平台和机器学习服务(MLaaS)

因为越来越多的数据科学和机器学习工程都是在云端完成的。


No.11 数据工程和操作工具

有使用大数据操作工具的经验,包括开源产品如Pandas,以及商业或基于云的提供商提供的工具。


希望对你有所帮助!