数据科学家 (Data Scientist) 的核心技能是什么?
关注者
6,848被浏览
1,219,505登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
我总结了11种技能,你可以看看~
No.1 统计学和数学
掌握以下概念:
- 平均值、中值和众数;
- 标准差和方差;
- 相关系数和协方差矩阵
- 概率分布——二项分布(Binomial),泊松分布(Poisson),正态分布;
- 假定制(p-value);
- 贝叶斯定理(Bayes' Theorem')
- 对混淆矩阵的精度、召回率、正预测值、负预测值、受试者工作特征(ROC)曲线、中心极限定理、R2分数、均方误差、A/B检验和蒙特卡罗模拟(Monte Carlo Simulation)进行分析。
No.2 多元微积分和线性代数
核心线性代数主题包括向量、范数、矩阵、矩阵的转置和操作、点积、特征值和特征向量。
矩阵数学和多变量微积分,如导数和梯度,阶跃函数,sigmoid函数,logit函数,成本函数,最小/最大值,纠正线性单位函数和函数绘图的关键。
No.3 优化方法
包括成本和误差函数,快速从大数据中确定值的方法,以及迭代。
掌握的关键领域包括成本函数和目标函数、似然函数和误差函数、梯度下降算法及其变体。
No.4 数据可视化
从数据中获取数字或分类的见解,并以决策者能够理解的方式呈现它们(重要!)
有数据绘制和图表,包括:
- 直方图;
- 条形图和面积图,饼形图和折线图,瀑布图,温度计和烛台图;
- 分割和聚类图;
- 散点图和气泡图;
- 分类空间可视化;
- 探索性数据分析的可视化方法;
- 框架图和树形图;
- 漏斗图、文字云、热图、视频和图像注释;
- 地图和地理空间可视化;
- 使用各种各样的计量器、度量标准和措施。
No.5 数据处理,准备和争论
大数据访问的经验,包括Hadoop和Spark,SQL和NoSQL方法。使用MongoDB和Postgres等常用数据库的经验。
No.6 数据分析
知道如何构建分析产品,从数据中生成预测、描述和投影结果。
会用Excel、大数据分析工具(如Hadoop和Spark)、商业分析产品(如SAS和MATLAB)以及使用R、Python、Java、Julia和其他语言的开源产品。
No.7 机器学习算法、建模与特征工程
了解机器学习算法,包括:
- 决策树方法(decision trees),随机森林算法,bagged算法和提升树方法(boosted tree);
- 贝叶斯算法(Bayesian methods);
- 邻近算法(k-nearest neighbors);
- 支持向量机(support vector machines);
- 集成方法(ensemble methods);
- 群集方法包括k均值( k-means)、高斯混合(gaussian mixture)和主元分析法(principal component analysis);
- 马尔可夫模型(Markov models);
- 循环神经网络,卷积神经网络和玻尔兹曼机(Boltzmann machines)。
No.8 编程技能
精通一系列语言,包括Python、R、Julia和基于java的语言,尤其是Python,当然其他也会更好,多多益善。
No.9 分析和大数据处理工具
对处理大数据的平台和框架有一定的了解,包括SQL、Spark、Hadoop、Hive和Pig。
No.10 云平台和机器学习服务(MLaaS)
因为越来越多的数据科学和机器学习工程都是在云端完成的。
No.11 数据工程和操作工具
有使用大数据操作工具的经验,包括开源产品如Pandas,以及商业或基于云的提供商提供的工具。
希望对你有所帮助!