数据分析这碗饭,到底该怎么吃?丨极客时间

2019 年 4 月 26 日 InfoQ

也许你还没有直接和数据打交道。但是,你的老板一定已经开始重视数据,并思考如何通过数据来优化业务结构了。

再进一步,你的公司可能已经或者将要迎来需要进行数据分析挖掘的阶段。当机会来的时候,大部分人都毫无头绪,一脸茫然。如果此时你能给出一个清晰的思路和解决方案,就会真正意识到,数据分析能力,可以让你未来至少 10 年的技术生涯游刃有余。

之前在百度的曹政举了他身边的例子,令人印象深刻,蛮多看上去并不优秀的人却都能靠着数据分析 C 位出道。


十来年前我在百度招聘过一个人大本科应届的小伙子邓明生,从学历背景看在百度并不占优势,当时开始跟我做数据分析,写程序分析百度的业务数据,后来慢慢独挡一面,因为对百度所有业务线的数据都清晰,后来百度出现一些人事危机的时候开始成为救火队长,连续在不同业务部门担纲重要职位,一路升到联盟事业部总经理,今年离职出来创办御势资本,青出于蓝而胜于蓝,人家现在比我厉害很多了。


还是十来年前,又有一个应届生吴海生,从百度产品部门申请内部调动去做数据分析,开始经验不足,写报告还被我嘲讽过的那种。好多年不见,最近看新闻才知道,已经某新近上市的金融公司CEO,妥妥的C位出道有没有,真是让人刮目相看。

那么,数据分析到底该怎么学呢?如果可以做到以下这三项,你一定比别人更高效。

1. 找到一个实力与经验俱佳的“教练”,从思维、工具、实战带你“即学即用”

2. 制定一份正确的学习计划与路径,你真正需要的是好方法而不是蛮力

3. 有效工具的运用会让你事半功倍

在这里,不得不给大家介绍下极客时间的专栏 --《数据分析实战 45 讲》,作者是清华大学计算机系博士陈旸,最近刚刚更新完毕,我一直跟着学习,获益匪浅。

在这个专栏中,陈旸清晰地把数据分析拆解成下面三个组成部分:数据采集、数据可视化和数据挖掘。在后面文章里,我会给大家分享这三部分所需要掌握的知识,让你有个更深入了解。:


     

并且,专栏里一直秉承着“MAS 学习法“,即 Multi-DImension(多维度认识)、Ask(提问)和 Sharing(分享),从“思维”到“工具”再到“实践”,学以致用,更高效上手数据分析。

现在要插播一下,InfoQ 今天的专属粉丝福利:《数据分析实战 45 讲》限时优惠,参团只要 79 元,原价 99 元,便宜 20 元,但仅限今天 24 小时。想扩大自己能力边界的同学们,请抓紧搭上这个快车。


       识别上图二维码,立即加入专属福利团

好,下面接着给大家分享上图中数据采集、数据可视化和数据挖掘需要掌握的知识。

数据采集

当你入门 Python 后,接下来就算是正式进入数据处理阶段。「数据分析」涵盖两部分:数据是基础,分析是过程,所以数据的前期准备工作也很重要。第一步,就是采集数据。

你可以用 Python 自动采集数据,也可以使用第三方平台,比如用八爪鱼来采集数据。《数据分析实战 45 讲》中,作者陈旸用了两个实战案例来讲解如何用 Python 和八抓鱼来采集数据,讲的非常细致,看完你可以掌握这两种常用方法。

详细地,你可以去直接看专栏里这两篇文章:

  • 第 9 讲 | 如何用八爪鱼采集微博上的“D&G”评论?

  • 第 10 讲 | 如何用 Python 自动化下载王祖贤海报?

数据可视化

大多数人都很容易被数据可视化吸引。试想一下,用各种酷炫的图片将数据的规律直观地呈现给大家,是一件特别有成就感的事情。应用也很广泛,比如天猫双十一的数据大屏等。我们可以用各种工具、编程语言做数据可视化,比如 DataV、Tableau、Python 或者 R 语言。

在《数据分析实战 45 讲》中,主要用 Python 的 Matplotlib 工具来做数据可视化。Matplotlib 是 Python 的可视化基础库,非常适合入门学习。学完专栏,下面的这几张图我也可以做出来,非常抢眼。


     

你可以看看专栏里这篇文章:

第 15 讲 | 如何用 Python 绘制 10 种常见的可视化视图?

数据挖掘

当你掌握了数据分析中基础的操作后,接下来就该正式处理数据了。为了进行数据挖掘任务,数据科学家们提出了各种算法,《数据分析实战 45 讲》中详细讲解了数据挖掘十大经典算法,根据用途,把它们分为四大类:

  • 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART

  • 聚类算法:K-Means,EM

  • 关联分析:Apriori

  • 连接分析:PageRank

值得一提的是,专栏里用了大篇幅内容、许多案例来讲解这十大算法,还会提供一些数据库让大家去实操,亲测有效。



学完《数据分析实战 45 讲》专栏,你一定会对数据分析游刃有余。这个专栏已有超过 1.1w 人加入学习给大家截了部分读者评价,你可以参考。


     

也给大家放下推荐这个专栏的曹政大佬截图。

  

最后,再强调一遍今天 InfoQ 的粉丝专属福利。


《数据分析实战 45 讲》限时优惠,从这里参团只需¥79,原价¥99,便宜 20 元,但仅限今天 24 小时。想扩大自己能力边界,想在职场有更多选择的同学们,请抓紧搭上这个快车。


👆👆👆

扫码订阅

粉丝专属福利

限时参团只需¥79

今天 24 小时

点击「阅读原文」,试看 / 订阅此专栏

登录查看更多
0

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
123+阅读 · 2020年3月26日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
对不起,我们公司不招过了25岁还不懂数据分析的人
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
年薪48万的程序员,他究竟做对了什么?
机器学习算法与Python学习
7+阅读 · 2018年12月28日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
PPTV创始人姚欣:人工智能到底怎么赚钱?
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
荐号 | 如何快速成长为优秀工程师,这7个公号告诉你
机器学习算法与Python学习
3+阅读 · 2017年11月12日
Arxiv
15+阅读 · 2020年2月6日
Labeling Panoramas with Spherical Hourglass Networks
Arxiv
8+阅读 · 2018年4月8日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
123+阅读 · 2020年3月26日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
相关资讯
对不起,我们公司不招过了25岁还不懂数据分析的人
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
年薪48万的程序员,他究竟做对了什么?
机器学习算法与Python学习
7+阅读 · 2018年12月28日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
PPTV创始人姚欣:人工智能到底怎么赚钱?
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
荐号 | 如何快速成长为优秀工程师,这7个公号告诉你
机器学习算法与Python学习
3+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员