数据科学家成长指南:从入门到被逼疯(共12题)

2019 年 2 月 26 日 THU数据派

来源:新智元

本文2000字,建议阅读5分钟

本文介绍了想要成为一名数据科学家需要的技能。




[ 导读 ]人工智能的火爆带动了对数据科学家的大量需求。看到急缺的岗位和高薪,谁能不动心呢?可是你确定想好要成为一名数据科学家了吗?你知道成为一名DS,需要具备什么技能吗?那就请准备好,下面我们要开车了!


你可能已经从媒体铺天盖地的报道中,了解到数据科学家这个抬头非常火。


根据UiPath数据显示,2018年12113个岗位争夺AI人才,数据科学家需求量排名第二。


http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652033026&idx=3&sn=65a5905519df0c5a24996debcdaf006b&chksm=f121a4f3c6562de5a30e02bc8fd864bab6a7605d84261d09e6c9f1759dbcb954280aa9c8e5d0&scene=21#wechat_redirect



于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题:如何成为一名数据科学家呢?


接下来,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二书的作者、美国西南航空的企业顾问Thomas Nield,献上这份《2019年数据科学家成长指南》。


废话不多说,马上进入战斗。


Round 1:不考证完全没问题。当然考了也可以


不要把工作后宝贵的时间,浪费在考证上。数据科学不过是商业分析的一个分支,而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去Coursera或者可汗学院自学。


当然,证书多了终归是好事嘛。如果你非要去学校考证,建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家,基本都是这俩专业毕业的。


花个几年时间研究生毕业后,明天就会更好?反正有个数据科学初创公司的创始人说:


博士学历不重要;硕士学历无可无不可;学士毕业必须有,因为用人单位最低要求就是大学毕业。


https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253


Round 2:成为一个数据科学家真的需要了解这么多领域吗?



这是一张6年前的图,里面甚至连TensorFlow都没有。


而且我觉得,数据科学发展到现在,已经非常碎片化和细分化了。根本没必要搞的这么复杂。


Round 3:我应该学哪门语言呢?需要从Linux入手吗?


数据科学家是一个跨平台物种,操作系统不重要。


语言的话,Scala早就过气了,R解决数学问题非常爽,Python才是万能的。一条Python在手,数据科学跟我走。


不过需要了解一些库,类似Pandas用来处理数据帧,matplotlib用来创建图表。


Round 4:学会Python很关键!学不会也没关系


Python学起来超简单。不过,你可能也不用非得学会Python。


作为人类,要善用工具。数据科学不止眼前的脚本和机器学习,还有远方的数据可视化。这个时候显然Tableau更好用,也更美观。


Tableau


不过涉及到数据清洗、管理、转换、加载等,就需要用到Alteryx了,鼠标拖拽就能搞定。


小编点评:所以买个Tableau就可以称为数据科学家了?


从淘宝买个激活码岂不是要变成二手科学家?


Round 5:明明靠Excel和PPT就能搞定,为什么非要学Python呢?


首先,能为你的简历增加光环。


其次,之前也说过,Python简直万能。通过Jupyter notebook逐步完成每个数据分析阶段,让每一步都可视化,就像你正在创建一个可以与他人分享的故事。 


划重点:毕竟,沟通和讲故事才是数据科学的重要组成部分。


数据科学和软件工程很大程度可以划等号。不同之处在于,数据科学必须有数据,软件工程就不一定了。



Wiki网页是一个非常好的数据来源,抓取网页并使用Beautiful Soup解析他们,就得到了大量非结构化文本数据。


Round 6:懂NoSQL行,不懂也没事


非机构化数据才能激发我们的想象力,结构化数据只能固化我们的逻辑能力。


如今像谷歌Facebook这样的大厂,拥有大量的非机构化数据,他们就像裁判一样,数据科学的定义权掌握在他们手里。剩下我们这些运动员,只好用无聊的SQL咯。


利用非结构化数据,大厂可以通过挖掘用户内容、邮件、故事,用于广告或者其他途径。


而我们也可以利用非结构化数据,对社交媒体上的帖子进行,做一些NLP应用比如聊天机器人。


NoSQL更擅长存储这类数据。但是对于数据科学家来说,NoSQL也不是必须要掌握的,除非做数据工程师。而且现在Apache Kafka比NoSQL更火,所以你也知道该学什么了。


有的人可能不知道,数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用;而数据科学家则负责机器学习以及数学建模。


这个时候,利用朴素贝叶斯算法,就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。


Round 7:学会线性代数很重要。不会的话……也行吧


传统智慧认为线性代数是许多数据科学的基石,因此掌握线性代数很重要。将矩阵相乘和相加(称为点积),将一直伴随着你。



听起来很无聊对吧,但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时,你将使用随机权重值进行大量矩阵乘法和缩放。


不过实际上,你可能也不需要学习线性代数,因为有像TensorFlow和 scikit-learn这样的框架和库,帮你解决掉最枯燥乏味的线代部分。


http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652037501&idx=5&sn=bf72bffd392dc23498d0c5305ae385b8&chksm=f121958cc6561c9ac4c7af09aafe8204f6629811b6fdc832992132daaa718c918106554ffa13&scene=21#wechat_redirect


呃,实际上,也别用TensorFlow,用Keras。


Round 8:棒。总之都能用Excel实现,所以会用Excel就可以被称为数据科学家了?


机器学习通常在做两个任务:回归,或者分类。但技术上来说,分类就是回归。


决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。


所以,我们也可以不负责任的说:机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。


Round 9:为什么大家现在不怎么谈论算法了?


因为这些优化问题已经在很长一段时间内得到了令人满意的解决,而且这些方法在很早以前也没太多人讨论。


运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“AI”问题提供了许多解决方案。


AI炒作重新点燃了机器学习及其解决的问题类型:图像识别,自然语言处理,图像生成等。


机器学习,深度学习…今天被炒作的任何东西,通常都不能解决离散优化问题,人们尝试过,但效果非常不理想。


所以有人说深度学习是否已经达到了极限,AI寒冬又双来了。


Round 10:AI玩游戏已经超神,接下来会取代人类工作吗?


首先我们要明确一点。人们已经找到了一些巧妙的回归应用,例如计算围棋和象棋最优移动(离散优化也可以做),或自动驾驶的汽车计算转向的方向。 


但是,回归只能将这么多的应用组合起来,完成单一任务。


现在我们好好思考一下,你会担心职业星际争霸选手威胁到你的工作吗?你觉得打星际,和你打Excel之间,有多少重叠的交集呢?



如果你连人类星际选手都不怕,你为什么还怕一个回归呢?AI玩星际再强,它也只会玩星际。


Round 11:一句话解释什么是数据科学家,让你爷爷也能听懂


数据科学的界限正在模糊。它可以是任何东西,也可以什么都不是。成为数据科学家你需要掌握很多东西,但就算没掌握也不会致命。


天哪!


不过幸好,这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家:


数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。



Round 12:已疯


所以,2019年,你还想做数据科学家吗?



编辑:王菁

校对:林亦霖


登录查看更多
0

相关内容

【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
专知会员服务
171+阅读 · 2020年6月4日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
PyTorch  深度学习新手入门指南
机器学习算法与Python学习
9+阅读 · 2019年9月16日
荐书丨Python数据分析从入门到精通
程序人生
18+阅读 · 2018年3月31日
Python 如何快速入门?
全球人工智能
6+阅读 · 2018年3月15日
零基础小白,如何入门计算机视觉?
计算机视觉life
9+阅读 · 2018年3月8日
【财富空间】机器学习小白如何成长为业内专家?
产业智能官
5+阅读 · 2017年12月26日
机器学习小白如何成长为业内专家?
深度学习世界
4+阅读 · 2017年12月4日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
机器学习实践指南
Linux中国
8+阅读 · 2017年9月28日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
专知会员服务
171+阅读 · 2020年6月4日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
PyTorch  深度学习新手入门指南
机器学习算法与Python学习
9+阅读 · 2019年9月16日
荐书丨Python数据分析从入门到精通
程序人生
18+阅读 · 2018年3月31日
Python 如何快速入门?
全球人工智能
6+阅读 · 2018年3月15日
零基础小白,如何入门计算机视觉?
计算机视觉life
9+阅读 · 2018年3月8日
【财富空间】机器学习小白如何成长为业内专家?
产业智能官
5+阅读 · 2017年12月26日
机器学习小白如何成长为业内专家?
深度学习世界
4+阅读 · 2017年12月4日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
机器学习实践指南
Linux中国
8+阅读 · 2017年9月28日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员