对于数据科学的4种关键职位,哪些任职资格最重要?

2017 年 11 月 27 日 AI前线 给你正确方向


作者|MLJunkie by fossil
译者|张斌
编辑|Emily
对于各种职位,哪些任职资格或哪些技能最重要? 本文或许能给你答案。

更多干货内容请关注公众号“AI 前线”,ID:ai-front

我决定在这周末做一个小项目。我注意到数据科学市场中的职位有些模糊不清,一名数据科学家与一名 Al 工程师做相同类型的工作并不罕见。我相信每件事情都可归结为某种形式的数据分析和编程(除理论研究外)。

我在 Python 中使用 Selenium 和 Beautiful Soup 构建了一个简单的 Web-scraper,并在 Indeed.com 上针对 1000 个招聘职位中的每一个查询是否包含以下单词:

  1. “数据科学家”

  2. “机器学习”

  3. “数据工程师”

  4. “数据分析学”

我使用 Matplotlib 创建这些相当简单和单调的条形图,但是它们完成了这项任务(我在使用图形框架方面也很糟糕)。

因为我将原始 HTML 解析为文本,然后做频率计数,一些结果可能会略有偏差(像“R”)。所以,我在计数时没有涵盖编程语言“Go”。

针对 4 组不同的词语,逐个查询并计数:

  1. 编程语言

  2. 框架

  3. 学术

  4. 杂类

编程语言   重置 

  要点 - 学习 Python 或 R


似乎专业越接近于统计学,你越希望技术栈里存有 Python/R 和 Java/C++ 。专业越面向数据,则你一定更需要 SQL、R/Python 和 SAS(可能还有 Scala)。我猜测算法实现在 ML 工程职位中更常见,因此更强调 Java/C++。但是,如果你正转向数据科学,则学习 Python 或 R。

框架

  要点-Hadoop/AWS/Spark


对于上述每次搜索查询,Hadoop 是这 1000 个招聘职位中最受欢迎的框架,其次是 Spark 和 AWS。对于机器学习,你可以看到 TensorFlow 也靠近顶部(我还极力向 ML 爱好者推荐 TensorFlow)。在深度学习框架之中,Torch 和 Caffe 不那么受欢迎(我听说 Caffe 就要被淘汰了)。面向数据库的工程师当然应该迅速将 Hive 和 Pig/HBase 收入技术栈中(我个人不了解它们,只是依照结果这么说)。

学术

  要点-机器学习 (ML) 越学越像书呆子


这时,我开始查看如学术等非技术资格。“数据分析学和数据工程师”职位与“机器学习和数据科学家”职位显示的结果类似。“统计学”和“数学”在“机器学习和数据科学家”招聘职位中出现大约 2000 次,在“数据工程师和数据分析学”中仅出现了 1000 多次。显然拥有博士学位在机器学习和科学家职位方面更受欢迎,但现在,在大多数情况下,硕士就足够了。事实上,拥有学士学位,辅以大量的 Al 方面的个人项目经验,同样可以跨入门槛。在“机器学习”的查询结果中看到顶级机器学习期刊(NIPS、ICML 等)也非常有趣。如果你倾向于数学或研究,那么你可能更适合 ML 职位。

杂类 

  要点-Kaggle 不应该是你的王牌


该类别基本上指我不能确切放入相关类别的所有词语。所以我简单地把它们集中在杂类中,但出现了一些有趣的结果。Kafka 出现在数据工程师职位的第三位,但在任何其他查询中都不在领先位置。“Al”在数据分析学和数据工程师招聘职位中不是很显眼。MapReduce 在数据工程师职位中的出现的次数比在任何其他职位中多一倍(我认为有道理)。令人吃惊的是,Kaggle 几乎没有出现在任何查询的任何招聘职位中。我不知道这是否因为公司不知道 Kaggle 是什么,还是参加预测建模比赛不具有很强的吸引力。

到这里你应该已经对情况有了一些了解!我将在下面总结我的发现,并附带一个包括所有柱状图的 PDF 文件,这样容易对它们进行比较。这是我一直以来想做的一个有趣的迷你项目。我会将代码上传到我的 GitHub。

  • 至少你应该知道 Python 或 R(最好是 Python)。

  • 对于更“面向数据库”的职位,你要确保在 SQL 和大数据框架方面有优势,如 Hadoop 和 AWS。

  • 如果有机会,我建议机器学习爱好者去学习 TensorFlow 而不是其他的深度学习框架。

  • 如果你是在读本科生,而且非常热爱 ML,那么可以考虑读取博士学位。如果你已毕业,并打算转向数据科学,那么硕士学位就足够了。

  • 如果愿意,你可以参加 Kaggle 比赛,但它不会成为你的主要资本。

  • 如果你不是很专注于数学,则考虑数据工程师或分析师职位。

  • 虽与数据无关,但也不要让 Python/R 成为你唯一学习的语言。行业应用可能最需要你在 C/C++/Java 中编写出算法来实现代码。

感谢阅读,如有任何问题请留言。

查看英文原文:

http://www.jungle-ml.com/2017/09/17/data-science-job-qualifications-via-web-scraping-indeed-com/


登录查看更多
1

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
还在修改博士论文?这份《博士论文写作技巧》为你指南
专知会员服务
174+阅读 · 2020年6月4日
【资源】100+本免费数据科学书
专知会员服务
108+阅读 · 2020年3月17日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
35+阅读 · 2020年3月6日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
2年Java经验,真的就拿不到30万年薪吗?
程序员观察
3+阅读 · 2018年4月8日
Python为啥这么牛?
Python程序员
3+阅读 · 2018年3月30日
数据挖掘与人工智能学习进阶指南
数据挖掘入门与实战
4+阅读 · 2018年1月19日
想成为具有核心竞争力的 Python算法工程师?清华博士带你入门!
机器学习算法与Python学习
3+阅读 · 2018年1月9日
数据分析/数据挖掘 入门级选手建议
R语言中文社区
5+阅读 · 2017年12月20日
Arxiv
10+阅读 · 2020年4月5日
VIP会员
相关资讯
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
2年Java经验,真的就拿不到30万年薪吗?
程序员观察
3+阅读 · 2018年4月8日
Python为啥这么牛?
Python程序员
3+阅读 · 2018年3月30日
数据挖掘与人工智能学习进阶指南
数据挖掘入门与实战
4+阅读 · 2018年1月19日
想成为具有核心竞争力的 Python算法工程师?清华博士带你入门!
机器学习算法与Python学习
3+阅读 · 2018年1月9日
数据分析/数据挖掘 入门级选手建议
R语言中文社区
5+阅读 · 2017年12月20日
Top
微信扫码咨询专知VIP会员