看到一张信息图,总结了数据科学家的技能,最近俺也在学习深度学习建模,越来越感觉到数学的重要性,数据科学家的价值更为凸显。
什么是数据科学和机器学习?
相比之下,数据科学和机器学习是一个相对较新的现象,在过去的十年中已经成为学界和业界最热门的话题和向往的专业领域。一定意义上说,支撑数据科学和机器学习的数理和统计理论已经存在了很长的时间。简而言之,像Hadoop这样的程序在技术上的重大进步已经使我们能够处理大量的数据,并通过各种机器学习方法进行分析。
这两年深度学习又有了革命性的算法突破,深度学习可以算作为机器学习的一个分支。当机器学习可以根据以往历史数据,通过自我学习寻找隐藏在数据中的模式、趋势和相关性后,人们发现数据科学家正在商业领域成为世界风靡的新职业。企业现在可以利用数据挖掘的洞察力来获得竞争优势,从而增加真正的数据价值和商业洞察。
数据科学家需要什么技能?
关于数据科学家在这个领域必须具备哪些技能和经验才是合格的。人们常常问到“数学背景的毕业生如何走进数据科学的世界”?
首先,数据分析和数据科学的区别在于传统的数据分析往往是描述性的,或者说是统计量层面的,关注于如何描述数据在说什么,能够得出什么推断性。而数据科学的关键要素是建立模型来进行个人层面的预测,通过这些预测,商业才能更好地将自己的方法专注于市场营销,金融,欺诈检测,AI聊天机器人等等。
要想走进数据科学的大门,有许多不同的途径。数据科学家通常拥有计算机科学,数学,统计,神经科学或相关学科具有博士/硕士以上学位。一般来讲今年来一些高校开设数据科学或相关的专业,尤其是关注在机器学习领域的毕业生,更倾向于拥有进入该行业所需的经验。
数据科学家的另一个重要特征是他们具有跨多个层次善于沟通交流的个人特征。通常,数据科学家需要将数据如何发现商业问题和计算机、互联网架构与数据领域的专业问题转化为非技术人员能够利用数据洞察力做出商业决策。
在许多数据科学工作规范中,通常需要以下一些技巧的经验和信心...
• 工具包和技术
- Python / R / SQL
- Numpy / SciKit-Learn/ Pandas / TensorFlow / PySpark / Keras / Graphlab
- Hadoop,Spark
• 机器学习模型和各种算法及软件
- 线性回归/逻辑回归
- 支持向量机
- 决策树/随机森林
- 神经网络
- 朴素贝叶斯
- KNN
- 自然语言处理NLP
- 深度学习/CNN /RNN /LSTM / Encoder-Decoder
- 计算机视觉
- 计算机语音
- 数据可视化 / Tableau / Echarts / D3js
- Jupyter Notebook
- 图理论和网络分析
- 网络爬虫和API技术
- 空间地理信息处理 / Qgis /Arcgis
- Html / CSS / Javascript
- 云计算 / 物联网 / BS架构
- 数据结构与计算机网络
- Modeler / SAS / Knime
数据科学家需要理解商业和模型
- 个性化推荐
- 客户流失分析 / 客户价值模型 / 客户信用模型 / 客户欺诈模型
- 客户商圈模型
- 市场细分
- 交叉销售与增量销售
- 消费者画像
- 情感分析
- 购物篮分析
- 社会网络分析
- 中文分词与命名实体
- 大屏可视化技术
人工智能越来越成为大数据之后落地的产业化和商业化应用场景!
开始学习视频、图像、语音、语言、文本的深度学习算法,相信会与智能媒体越来越近,人工智能一定是大数据和深度学习之后最活跃的领域。
沈浩老师
大数据挖掘与社会计算实验室主任
中国市场研究行业协会会长
欢迎关注沈浩老师的微信公共号
欢迎关注:灵动数艺
——数艺智训