数据科学 data science 是什么?

数据科学 data science 是什么 这是在学什么啊? 要会coding的能力吗? 数学要很好吗
关注者
83
被浏览
314,490
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

既然要理解数据科学(data science) 是什么,那就先来了解数据科学在工作中到底,扮演着什么样的角色:

数据科学,无非就是跟数据打交道,只要设计到数据相关的领域知识,其实都可以算数据科学工作者的内容。那么具体的周期可总结如下:

1. 理解业务需求:定义业务问题或客户问题

  • 了解客户或者业务的需求,才能朝着正确的方向进行分析。
  • 如果有成型的团队 ,此步骤可以产品经理完成。

2. 数据获取:ETL(提取、转换和加载)、SQL

  • 理解业务需求后,就可以准备需要提取的数据集。
  • 如果有成型的团队 ,此步骤可以数据工程师完成。

3.数据准备:清洗和预处理

  • 接下来就是对数据进行处理,比如缺失值、异常值等脏数据的基本处理。

4. EDA(Exploratory Data Analysis):绘图、可视化、假设检验、集中趋势测量、数据分布、数据切片等

  • 此步骤初步探索与需求相关的一些特征,总结之间的关系。
  • 此步骤时间短可几天,长可几个月。

5. 建模、评估和解释

  • 接下来就是开始建模、评估模型,解释模型。
  • 数据科学者其实如果太过于专注模型,而忽略了其它环节,那么其实也最多不过只是个优秀的建模师,而非真正意义上的数据科学者。

6. 沟通结果:需要清晰简单,1-6页

  • 既然模型已经出来了有可能有用的结果,接下来就是准备1到6页的模型分析报告,同时需要简单清晰向相关需求部门或领导沟通反馈结果。
  • 报告最好一页(非强制 看需求),让其他人可以几分钟,比如10分钟内了解(非强制 看需求)。

7. 部署

  • 接下来就是部署工作
  • 如果有成型的团队 ,此步骤可以软件工程师完成。

8. 现实测试:A/B测试

  • 接下来就是生产环境中进行模型测试。
  • 如果数据量较大,有更好的测试选择:A/A/B测试。

9. 客户/业务支持

  • 再次与业务沟通反馈结果,如果是对外客户的需求,交付沟通。

10. 模型运营:再训练模型,处理故障

  • 根据时间的推移,或者其他社会原因导致相同特征的数据分布不适合之前模型,又或者在取数环境有所变化等,都可能导致一些问题出现。

11. 优化:改进模型,更多数据,更多特征,优化代码

  • 最后就是各个环节的优化。
  • 根据需求此过程可能会花好几年来操作。

在此,总结了11步数据科学者的工作周期,有些环节并非一定非要数据科学者来完成,有条件的公司,团队合作带来的效率会更高。当然我们还可以根据这个周期,一一对应去提高各环节的能力或者技能。

  1. 上面的各个环节都是我们需要去学习的。
  2. 对于coding能肯定有一定要求的(目前大多数做这么方面的工作python选择得较多)
  3. 从上面周期来看,数据科学者对于数学有要求,但并不是全部,并没有机器学习工程师那么高,当然不管那个岗位,肯定越精通越好,但是从现实考虑,目前这两个岗位国内很少定义清楚,同时要学的内容非常繁多,所以在某个领域先够用,再求精进