本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。
* 简单介绍Python
* 回顾一下线性几何、统计和概率知识,了解搞数据科学的时候怎么使用它们
* 收集、探索、清理、转换和操作数据
* 了解机器学习的基本知识
* 实现K近邻、朴素贝叶斯、线性及逻辑回归、决策树、神经网络及聚类等模型
* 探索推荐系统、自然语言处理、网络分析、MapReduce,还有数据库
https://www.oreilly.com/library/view/data-science-from/9781491901410/
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“P464” 可以获取《【干货书】Python数据科学入门,464页pdf》专知下载链接索引
有人称数据科学家为“21 世纪头号性感职业”(https://hbr.org/2012/10/data-scientist-thesexiest-job-of-the-21st-century/)。虽说如此称呼有些夸张,但这个名称对数据科学的推崇却 一点也没错,这是一个蓬勃发展、前途无限的行业。很多分析师都预言,未来十年会需要 比现在多得多的数据科学工作者。
那么,什么是数据科学?唯有正确理解数据科学,才能培养出数据科学家。根据广受业界 赞誉的文氏图(http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram),数据科 学是以下几个方面的交叉:
• 黑客技能
• 数学和统计学知识
• 专业技能
我原本很想写一本能涵盖以上三个方面的书,但很快意识到仅关于专业技能的撰写就会耗费 上万页笔墨,于是及时放弃转而专注于前两个方面。我的目标有两个:一是帮助读者掌握从 事数据科学工作所必需的黑客技能;二是帮助读者熟悉数学和统计学,这是数据科学的核心。
对一本书来说,这两个愿望有点大了。学习黑客技能的最好方法就是钻研技术。通过阅读 本书,你可以理解我钻研技术的方式,但相同的方式对你未必最适合;你可以理解我使用 的一些工具,但相同的工具对你来说未必最顺手;你可以理解我如何解决数据问题,但相 同的方式对你来说未必最有效。举例的目的和希望是启发你以自己的方式和方法完成工 作。本书涵盖的所有代码和数据都可以从 GitHub 上下载。
同样,学习数学的最好方式就是研习数学。当然本书并不是一部数学著作,我们在本书中 大半也不会“研习数学”,我想强调的是数学知识对从事数据科学工作至关重要。不理解 前言 概率、统计、线性代数,就无法真正开始数据科学工作。在需要的地方,书中会引入数学 方程式、数学直觉、数学公理,以及借以阐释大数学思想的卡通漫画。有我在,别怕!
总之,数据科学相当有趣(尤其和税务筹划或者煤矿开采等其他工作相比)。