这份宝典火了,小哥学后加薪30W+

2022 年 3 月 29 日 量子位
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

数据科学该怎么学?必备技能有哪些?

最近,一份数据科学领域的学习宝典在推特上火了,吸引点赞1k+。

之所以能够引起大家的关注,是因为这份教程将数据科学广而杂的知识内容,梳理成了14个方面及各自要点,同时解答了许多学习中的常见疑问。

比如“用什么语言比较好”、“哪些工具最适合”。

这份学习宝典的作者为Matt Dancho,他是一个数据科学学习网站的创始人。

那么,具体这份干货到底讲了什么?是否真的如此神奇?

我们一起来看。

更推荐R语言

进入正题之前,我们先来浅聊一下数据科学 (Data Science)

数据科学是指通过挖掘数据、处理数据、分析数据,从而得到有用信息的技术和研究,再将这些信息应用到不同领域的各个方面。

该学科结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算等,覆盖知识面非常广。

作者表示想要掌握这些技能,大概每周要投入10个小时来学习。

那么在开始真正学习之前,先来看一个最关键的问题——

用什么语言?

在这里,作者认为选择R语言或者Python都可以。

如果从从业角度出发,他会考虑以下三个因素:

  • 编程语言对数据科学的影响有多大?

  • 就业市场的需求如何?

  • 就业市场的竞争力如何?

第一方面,作者直接二者进行了对比。

Python非常适合机器学习和深度学习。但是在市场报告方面的优势不大,能用于统计经济学等重要领域的库比较少。

R语言在业务分析、数据科学方面都拥有完善的工具支持,在深度学习方面的应用比较弱。

不过作者认为,深度学习在数据科学中的应用不多,而且在需要深度学习或者其他API时,R语言可以和Python集合。

再从就业市场角度来看。

作者统计了美国招聘市场上的数据。

结果显示,Python方面在招职位的数量,是R语言的2.4倍

但是了解、掌握Python的人,也比掌握R语言的更多。

可能达到4-32倍。

最终作者认为,选择R语言更有优势。

那么还有一些其他基础技能呢?

比如推荐使用Excel吗?

作者认为,虽然Excel的使用人群更广、商务人士非常喜爱,但是它在处理机器学习、大数据方面都不具有优势,而且单元格中的函数也容易报错。

所以,建议大家慎重使用Excel。

而在选用什么开发工具方面,作者展开了一项小调查。

针对喜欢使用R语言的人群,RStudio是大家最喜爱的开发工具。

Python方面,JupyterVSCode更受人们欢迎。

在这里作者没有给出明确的推荐,大家可以按照喜好选择。

只需4步,上手数据科学

接下来,就到了正式学习的环节。

大致可以分为4个步骤:

  1. 掌握基础技能

  2. 学习建模

  3. 学习时间序列分析

  4. 将模型集成到应用程序

所需要点亮的技能树如下所示:

看到这里,先不要头皮发麻……作者给出了一些具体的学习tips。

第一,从基础技能学起。

可能很多人一上来就想搞定机器学习,但这可能会影响学习兴趣&效率。

作者用R语言进行了示范,列举了一些基础技能:

  • 导入数据:使用数据库,连接到SQL,readr包, readxl包;

  • 转换数据:处理异常值、缺失数据、重塑数据、聚合、过滤等;

  • 可视化数据:静态/交互式数据可视化,ggplot2以及plotly;

  • 处理文本数据、函数式编程……

如果以上这些基础技能都掌握后,接下来就可以学习机器学习了。

在这里,可能有人会疑惑,不应该先学习数学、统计和算法吗?

对此作者认为,如果从头开始学习如何编写算法,可能并不是快速上手数据分析。

所以,他更推荐从实战中学习这些技能。

简单来看可以分为三步:

  • 把机器学习应用在实际问题上;

  • 尝试使用不同的算法;

  • 对比不同的应用结果。

在这方面需要用到哪些工具呢?

TidymodelsH2O是作者推荐的两个软件包。

另外,Recipes中具有很多预处理工具,可以转换数据、创建数据特征。

接下来,作者推荐你开始学习时间序列分析

因为这个技能意味着你可以对未来的一些数据进行预测,掌握这项技能也会使你成为大厂手中炙手可热的人才。

在这方面,你需要掌握的技能如下:

  • 时间序列分析:处理日期/日期时间数据、聚合、转换、可视化时间序列、使用timetk

  • 预测:ARIMA、指数平滑、Prophet、机器学习(XGBoost、随机森林、GLMnet 等)、深度学习(GluonTS)、集成、调整超参数、扩展预测、modeltime包。

进行到这一步后,你就可以尝试去创建一个模型并投入使用了。

在这里,作者推荐了一个能够将模型集成到应用程序中的工具——Shiny

这个程序包可以用来创建交互式Web应用程序,代码可以在本地或服务器上托管。

One More Thing

看完这份技能树后,也有网友提出了疑问:

为什么没有看到深度学习?

作者回复表示:针对商业应用,机器学习会更实用。

作者表示,有位小哥在他们网站选择了快速进修的课程后,得到了微软机器学习工程师的offer。

当然,这份完整的学习计划是可以白嫖(链接请见文末)

对于这篇分享,你怎么看?

欢迎留言讨论~

学习清单:
https://www.business-science.io/r-cheatsheet

参考链接:
[1]https://www.business-science.io/careers/2022/03/11/which-data-science-skills-are-important.html

[2]https://twitter.com/mdancho84/status/1507698140853555204

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~



登录查看更多
2

相关内容

【干货书】PyTorch 深度学习,255页pdf
专知会员服务
274+阅读 · 2021年4月3日
斯坦福经典《概率统计学可视化入门》,66页pdf
专知会员服务
59+阅读 · 2021年1月19日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
【2020新书】Python金融大数据分析宝典,426页pdf与代码
专知会员服务
151+阅读 · 2020年7月11日
专知会员服务
171+阅读 · 2020年6月4日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
249+阅读 · 2019年11月10日
你买过最保值的东西是什么?
ZEALER订阅号
0+阅读 · 2022年4月10日
2021年,营销行业总算是打了个翻身仗
人人都是产品经理
0+阅读 · 2021年12月13日
TensorFlow 真的要被 PyTorch 比下去了吗?
PaperWeekly
1+阅读 · 2021年10月11日
各编程领域最好的入门书籍
程序猿
27+阅读 · 2018年7月29日
百万年薪AI工程师思维导图及书单
七月在线实验室
37+阅读 · 2018年5月25日
推荐|给你12本热门的深度学习书籍
全球人工智能
17+阅读 · 2018年3月18日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
荐书丨深度学习入门之PyTorch
程序人生
18+阅读 · 2017年12月1日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Fast Circular Pattern Matching
Arxiv
0+阅读 · 2022年4月20日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
【干货书】PyTorch 深度学习,255页pdf
专知会员服务
274+阅读 · 2021年4月3日
斯坦福经典《概率统计学可视化入门》,66页pdf
专知会员服务
59+阅读 · 2021年1月19日
【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
【2020新书】Python金融大数据分析宝典,426页pdf与代码
专知会员服务
151+阅读 · 2020年7月11日
专知会员服务
171+阅读 · 2020年6月4日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
249+阅读 · 2019年11月10日
相关资讯
你买过最保值的东西是什么?
ZEALER订阅号
0+阅读 · 2022年4月10日
2021年,营销行业总算是打了个翻身仗
人人都是产品经理
0+阅读 · 2021年12月13日
TensorFlow 真的要被 PyTorch 比下去了吗?
PaperWeekly
1+阅读 · 2021年10月11日
各编程领域最好的入门书籍
程序猿
27+阅读 · 2018年7月29日
百万年薪AI工程师思维导图及书单
七月在线实验室
37+阅读 · 2018年5月25日
推荐|给你12本热门的深度学习书籍
全球人工智能
17+阅读 · 2018年3月18日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
荐书丨深度学习入门之PyTorch
程序人生
18+阅读 · 2017年12月1日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员