数据科学 | 数据科学家需要掌握什么技能

2017 年 12 月 7 日 沈浩老师 沈浩

看到一张信息图,总结了数据科学家的技能,最近俺也在学习深度学习建模,越来越感觉到数学的重要性,数据科学家的价值更为凸显。



什么是数据科学和机器学习?

相比之下,数据科学和机器学习是一个相对较新的现象,在过去的十年中已经成为学界和业界最热门的话题和向往的专业领域。一定意义上说,支撑数据科学和机器学习的数理和统计理论已经存在了很长的时间。简而言之,像Hadoop这样的程序在技术上的重大进步已经使我们能够处理大量的数据,并通过各种机器学习方法进行分析。


这两年深度学习又有了革命性的算法突破,深度学习可以算作为机器学习的一个分支。当机器学习可以根据以往历史数据,通过自我学习寻找隐藏在数据中的模式、趋势和相关性后,人们发现数据科学家正在商业领域成为世界风靡的新职业。企业现在可以利用数据挖掘的洞察力来获得竞争优势,从而增加真正的数据价值和商业洞察。



数据科学家需要什么技能?


关于数据科学家在这个领域必须具备哪些技能和经验才是合格的。人们常常问到“数学背景的毕业生如何走进数据科学的世界”?


首先,数据分析和数据科学的区别在于传统的数据分析往往是描述性的,或者说是统计量层面的,关注于如何描述数据在说什么,能够得出什么推断性。而数据科学的关键要素是建立模型来进行个人层面的预测,通过这些预测,商业才能更好地将自己的方法专注于市场营销,金融,欺诈检测,AI聊天机器人等等。


要想走进数据科学的大门,有许多不同的途径。数据科学家通常拥有计算机科学,数学,统计,神经科学或相关学科具有博士/硕士以上学位。一般来讲今年来一些高校开设数据科学或相关的专业,尤其是关注在机器学习领域的毕业生,更倾向于拥有进入该行业所需的经验。


数据科学家的另一个重要特征是他们具有跨多个层次善于沟通交流的个人特征。通常,数据科学家需要将数据如何发现商业问题和计算机、互联网架构与数据领域的专业问题转化为非技术人员能够利用数据洞察力做出商业决策。



在许多数据科学工作规范中,通常需要以下一些技巧的经验和信心...


• 工具包和技术
- Python / R / SQL  
- Numpy / SciKit-Learn/ Pandas / TensorFlow / PySpark / Keras / Graphlab  
- Hadoop,Spark


• 机器学习模型和各种算法及软件
- 线性回归/逻辑回归  
- 支持向量机  
- 决策树/随机森林  
- 神经网络  
- 朴素贝叶斯  
- KNN 
- 自然语言处理NLP

- 深度学习/CNN /RNN /LSTM / Encoder-Decoder

- 计算机视觉 

- 计算机语音

- 数据可视化 / Tableau / Echarts / D3js 

- Jupyter Notebook

- 图理论和网络分析

- 网络爬虫和API技术

- 空间地理信息处理 / Qgis /Arcgis

- Html / CSS / Javascript

- 云计算 / 物联网 / BS架构

- 数据结构与计算机网络

- Modeler / SAS / Knime 


数据科学家需要理解商业和模型

- 个性化推荐

- 客户流失分析 / 客户价值模型 / 客户信用模型 / 客户欺诈模型

- 客户商圈模型

- 市场细分

- 交叉销售与增量销售

- 消费者画像

- 情感分析

- 购物篮分析

- 社会网络分析

- 中文分词与命名实体

- 大屏可视化技术



人工智能越来越成为大数据之后落地的产业化和商业化应用场景!


开始学习视频、图像、语音、语言、文本的深度学习算法,相信会与智能媒体越来越近,人工智能一定是大数据和深度学习之后最活跃的领域。


沈浩老师

——————
中国传媒大学新闻学院教授、博士生导师
中国传媒大学调查统计研究所所长

大数据挖掘与社会计算实验室主任

中国市场研究行业协会会长




欢迎关注沈浩老师的微信公共号






欢迎关注俺任会长的 市场研究协会

微信号:CMRA_2001

数艺智训
DAtraining

欢迎关注:灵动数艺

——数艺智训

数据艺术家
TableauHome









登录查看更多
0

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
266+阅读 · 2020年6月10日
专知会员服务
173+阅读 · 2020年6月4日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
142+阅读 · 2020年5月19日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
200+阅读 · 2020年2月11日
2年Java经验,真的就拿不到30万年薪吗?
程序员观察
3+阅读 · 2018年4月8日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
只需5个月,编程小白也能掌握机器学习
ImportNew
5+阅读 · 2017年12月4日
从0到1 | 0基础/转行 如何用3个月学会机器学习|数据科学
数据挖掘入门与实战
5+阅读 · 2017年12月4日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关VIP内容
相关资讯
2年Java经验,真的就拿不到30万年薪吗?
程序员观察
3+阅读 · 2018年4月8日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
只需5个月,编程小白也能掌握机器学习
ImportNew
5+阅读 · 2017年12月4日
从0到1 | 0基础/转行 如何用3个月学会机器学习|数据科学
数据挖掘入门与实战
5+阅读 · 2017年12月4日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员