2021数据科学就业市场最全分析：Python技能最重要，5到10年经验最吃香

会员服务 ·

2021数据科学就业市场最全分析：Python技能最重要，5到10年经验最吃香

2021 年 5 月 28 日 机器之心

选自TowardsAI

作者：Sujan ShirolR、oberto Iriondo
机器之心编译
编辑：蛋酱、杜伟

分析了 3000 多个数据科学相关的岗位招聘内容，他们总结出了十点重要规律。

在就业市场上，数据科学和机器学习的机会每年都在增加。如果你是数据科学相关岗位的求职者之一，那么未来十年将是一个明朗的时代，企业需求预计将大幅度增长。

近日，Towards AI 分析了多个在线职业门户网站上 3000 多个数据科学职位的发布情况，以此进行了招聘趋势层面的总结。这次分析的主要目的是帮助求职者更好地了解数据科学和机器学习当前的市场需求。

Selenium 是抓网页信息最快、最可靠、性价比最高的工具之一。该项目使用 Selenium 抓取了多个求职门户网站，导入必需的程序包并设置 chrome 驱动程序路径，都是非常简单的。循环点击 50 页，每页包括大概 20 个职位的简短发布信息，最终抓取了 3000 多个数据科学相关的岗位招聘内容。

提取出来的每个职位的 URL 可进入相应职位发布的详细页面，页面中包含了推理所需的所有详细信息。

import pandas as pdimport numpy as npfrom selenium import webdriverfrom selenium.common.exceptions import NoSuchElementExceptionchromepath = r'D:\Drivers\Chrome Driver\chromedriver.exe'url_list = []for i in range(1, 50):    print('Opening Search Pages ' + str(i))    page_url = 'https://jobportalexample.com/data-scientist-jobs-'+str(i)    driver = webdriver.Chrome(chromepath)    driver.get(page_url)    print('Accessing Webpage OK \n')    url_elt = driver.find_elements_by_class_name("fw500")    print('Success')        for j in url_elt:        url = j.get_attribute("href")        url_list.append(url)        driver.close()

为了简化此过程，URL 被保存为 pandas DataFrame。

url_list_copy_cleaned = [i for i in url_list]out_company_df = pd.DataFrame(url_list_copy_cleaned, columns=['Website'])out_company_df.head()

数据框。

现在，变量 `url_list_copy_cleaned` 有超过 3000 个岗位 list 的 URL，下一步是点击所有 1000 页，提取详细信息。被抓取的信息包括企业、位置、经验、角色、技能。

jobs={'roles':[],     'companies':[],     'locations':[],     'experience':[],     'skills':[]}
driver = webdriver.Chrome(chromepath)for url in out_company_df['Website']:    driver.get(url)    try:        name_anchor = driver.find_element_by_class_name('pad-rt-8')        name = name_anchor.text        jobs['companies'].append(name)    except NoSuchElementException:        jobs['companies'].append(np.nan)        try:        role_anchor = driver.find_element_by_class_name('jd-header-title')        role_name = role_anchor.text        jobs['roles'].append(role_name)    except NoSuchElementException:        jobs['roles'].append(np.nan)        try:        location_anchor = driver.find_element_by_class_name('location')        location_name = location_anchor.text        jobs['locations'].append(location_name)    except NoSuchElementException:        jobs['locations'].append(np.nan)        try:        experience_anchor = driver.find_element_by_class_name('exp')        experience = experience_anchor.text        jobs['experience'].append(experience)    except NoSuchElementException:        jobs['experience'].append(np.nan)        try:        skills_anchor = driver.find_elements_by_class_name("chip")        each_skill = []        for skills in skills_anchor:            each_skill.append(skills.text)        jobs['skills'].append(each_skill)    except NoSuchElementException:        jobs['skills'].append(np.nan)driver.close()

需要注意 NoSuchElementException 错误。因为一些 URL 会直接跳到企业主页，而不是同一工作门户网站的另一个详细信息页面。在这种情况下，要寻找的 HTML 元素可能不存在，将引发错误。

为了更好地进行数据处理和预处理，最好将数据固化为 Pandas DataFrame。在完成所有预处理步骤之后，将清洗后的数据集带入 Tableau 以实现最佳可视化效果。（Tableau 是专注于商业智能的交互式数据可视化软件）

CSV 表格。

接下来我们看主要分析结论，值得注意的是，这些数据和结论主要代表美国的就业市场情况。

有数据科学家招聘需求的企业

积极招聘数据科学家的顶尖企业。

在数据科学家职位空缺方面，埃森哲在美国排名第一，其次是亚马逊、苹果和 Facebook。埃森哲是提供咨询和处理服务的爱尔兰跨国企业，其应用程序服务、数据和分析、技术创新、商业智能、自动化等业务都需要大量熟练的数据科学家和工程师。

此外，有很多社交媒体企业、电子商务企业，或 PayPal 和 Google Pay 之类的支付处理平台也在积极招聘，这些企业每天都有很高的用户使用量，数据流可能达到数千 PB。

数据科学家招聘的地理分布

数据科学家招聘的地理分布。

旧金山占据招聘 list 的 15%，原因不言而喻——硅谷。紧随其后的是西雅图、圣何塞、奥斯汀、波士顿、纽约、圣地亚哥、丹佛、达拉斯、匹兹堡等，其中有些意外的是工业城市匹兹堡，占据钢铁工业城市数据科学家职位 list 的 2.55％。

需要哪些经验？

数据科学家所需的经验水平。

从上图的统计数据中可以明显看出，企业在 5-10 年的经验范围内寻找经验丰富的数据科学家，这占数据科学家总需求的 17％，而 3-8 年经验的占据 13％。但入门级数据工作的范围很小，而对于新手来说几乎没有什么空间，使得求职充满了挑战。

顶尖企业中聘用数据科学家的工作角色

顶尖企业中聘用数据科学家的工作角色。

大量职位空缺面向的是 5 至 10 年的经验丰富的专业人员，高级数据科学家职位占总需求的 22％。不过，助理数据科学家职位也处于前五名。与往常一样，答案就在于数据本身。

不同经验等级的职位分布

不同经验水平小组中的职位分布。

5-10 年组，数据科学家和高级数据科学家的机会是均等的；2-7 年组，高级数据科学家有 2.16％的空缺，Lead 数据科学家则有 0.36％；对助理数据科学家的要求基本在 3-5 年的经验水平范围内。

数据科学家最需要的 15 种技能

数据科学家最需要的 15 种技能。

对于世界上大多数工作而言，技能至关重要，拥有正确的技能会为任何求职者带来更多的机会。如上图所示，Python 编程、分析和机器学习是最需要的三大技能。

大多数人有一个错误的观念，认为 SQL 对于数据科学家是最不需要的，但它也在前五项技能之列。

数据科学家职位的编程语言排行

数据科学家职位的编程语言排行。

在 Python、R、Julia 和 Scala 之间选择正确的编程语言。根据分析，Python 满足了这些职位的总需求的近 50％，SQL 再次位居第二。

因此，拥有 Python 和 SQL 技能至关重要。C++ 也属于前五种编程语言要求之一，占总数的 3.8％。MATLAB 占总需求的 3.3％，它是一个数百万工程师和科学家用来分析数据、开发算法和创建模型的编程和数值计算平台。

数据科学职位与深度学习框架

数据科学职位发布相关的顶级深度学习框架。

Tensorflow、Keras 和 PyTorch 是最受欢迎的框架。它们提供了一整套与深度学习技术配合使用的库，并有效地利用了 GPU 硬件的功能。谷歌的 TensorFlow 占总需求的 43％，基本是市场上需求最多的深度学习框架，其次是 Keras 和 PyTorch。

数据科学职位与大数据技术

数据科学家职位发布的顶级大数据技术。

Apache Spark、Hadoop、Hive 和 Kafka 都是当前企业使用的流行技术，目前看起来，Apache Spark 和 Hadoop 拥有超越其他大数据技术的绝对优势。

数据科学职位与 Web 框架

方案部署通常以 Web 应用程序的形式进行，企业希望数据科学家具备 Web 框架的技能和知识，以部署任何机器学习模型。MongoDB、Django、JavaScript 和 HTML 是当前市场上流行的 Web 技能。

最后，在学习上述技能之前，请先具备统计学和线性代数的基础知识。最重要的是，要以项目、黑客马拉松、GitHub 资料等形式获得实践知识。此外，拥有自己的博客或个人频道也是绝佳的渠道。

当然，不必等到掌握所有技能后再申请职位。在寻找工作或工作期间继续学习是可以的，选择一个、两个技能点，然后进入深入研究。

原文链接：https://pub.towardsai.net/current-data-science-job-market-trend-analysis-future-4184f03a04ca

CVPR 2021 线下论文分享会

6月12日，北京望京凯悦酒店。 CVPR 2021 线下论文分享会将设置 Keynote 、 论文分享 和 Poster 环节。

4个Keynote、12篇论文分享日程已确认，欢迎大家报名学习。

作为一场开放的学术交流活动，我们也欢迎 CVPR 2021 的论文作者们作为嘉宾参与（现只剩Poster席位），请在报名页面提交演讲主题、论文介绍等信息，我们将与你联系沟通相关事宜。

点击阅读原文，立即报名。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

URL

关注 1

【2021新书】Python数据分析工具，409页pdf，A Python Data Analyst’s Toolkit

专知会员服务

101+阅读 · 2021年5月28日

2021数字就业新职业新岗位研究报告，62页pdf

专知会员服务

38+阅读 · 2021年5月7日

【干货书】数据科学家统计实战，附代码与409页pdf

专知会员服务

60+阅读 · 2020年11月6日

【2020干货书】Python3基础导论介绍,98页pdf

专知会员服务

103+阅读 · 2020年10月11日

【干货书】Python高级数据科学分析，424页pdf

专知会员服务

117+阅读 · 2020年8月7日

【干货书】用于概率、统计和机器学习的Python，288页pdf

专知会员服务

291+阅读 · 2020年6月3日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【实用书】掌握Python数据分析，282页pdf，Mastering Python Data Analysis

专知会员服务

103+阅读 · 2020年4月22日

算法与数据结构Python，369页pdf

专知会员服务

166+阅读 · 2020年3月4日

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

用 Python 开发 Excel 宏脚本的神器

私募工场

26+阅读 · 2019年9月8日

盘一盘 Python 系列 8 - Sklearn

平均机器

5+阅读 · 2019年5月30日

GitHub 热门：Python 算法大全，Star 超过 2 万

Python开发者

9+阅读 · 2019年4月27日

Jupyter Notebooks数据科学最佳实践指南

AI研习社

4+阅读 · 2019年3月4日

独家 | 利用深度学习和机器学习预测股票市场（附代码）

数据派THU

21+阅读 · 2019年1月3日

实战 | 用Python做图像处理（三）

七月在线实验室

15+阅读 · 2018年5月29日

教你用Python来玩跳一跳

七月在线实验室

6+阅读 · 2018年1月2日

python数据分析师面试题选

数据挖掘入门与实战

6+阅读 · 2017年11月21日

【数据分析】数据分析就不用掌握Python了？看看这位数据分析师给的最全资料！

产业智能官

9+阅读 · 2017年10月16日

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

Integrating diverse extraction pathways using iterative predictions for Multilingual Open Information Extraction

Arxiv

0+阅读 · 2021年10月15日

Gradient Assisted Learning

Arxiv

0+阅读 · 2021年10月7日

Active inference, Bayesian optimal design, and expected utility

Arxiv

0+阅读 · 2021年9月21日

Scalable Font Reconstruction with Dual Latent Manifolds

Arxiv

0+阅读 · 2021年9月10日

Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges

Arxiv

17+阅读 · 2021年7月10日

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

Label Embedded Dictionary Learning for Image Classification

Arxiv

6+阅读 · 2019年3月7日

Self-Driving Cars: A Survey

Arxiv

41+阅读 · 2019年1月14日

Stylistic Variation in Social Media Part-of-Speech Tagging

Arxiv

4+阅读 · 2018年4月19日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

VIP会员