需要处理大量数据的人必备的案头书
对于许多研究人员来说,Python是首选的工具,因为它拥有丰富的储存、操作、以及洞察数据的程式库。这些资源散布在数据科学的领域中,但藉由本书,你可以一口气取得这些资源,包括Ipython、NumPy、Pandas、Matplotlib、Scikit-Learn等等。
对于需要处理大量数据的人而言,这是一本非常有价值的案头书,可以有效率地处理每天面对的问题,像是操作、转换,以及清理数据、视觉化不同形式的数据,建立统计学或机器学习的模型等等。
藉由这本手册,你将可以学习到如何使用:
IPython和Jupyter:提供数据科学家使用的Python计算环境。
NumPy:在Python中进行高效储存以及操作密集数据阵列的ndarrys。
Pandas:在Python中进行对于标签式/栏位式的数据高效率储存与操作。
Matplotlib:在Python中进行弹性范围的数据视觉化的能力。
Scikit-Learn:提供机器学习演算法以及简洁的Python实作。
第一章IPython:更好用的Python
Shell还是Notebook
IPython的求助与说明文件
在IPython Shell中的快捷键
IPython的Magic命令
输入和输出的历程
IPython和Shell命令
和Shell相关的Magic命令
错误以及除错
剖析和测定程式码的时间
第二章NumPy介绍
了解Python的资料型态
NumPy阵列基础
NumPy阵列属性
阵列索引:存取单一个阵列元素
在NumPy阵列中的计算:Universal Functions
聚合操作:Min、Max、以及两者间的所有事
在阵列上的计算:Broadcasting
比较、遮罩以及布林逻辑
Fancy索引
排序阵列
结构化的资料:NumPy的结构化阵列
更多进阶的复合型态
第三章使用Pandas操作资料
安装并使用Pandas
Pandas物件的介绍
资料的索引和选择
在Pandas中操作资料
处理缺失资料
阶层式索引
资料集的合并:Concat和Append
合并资料集:Merge以及Join
聚合计算与分组
枢纽分析表
向量化字串操作
使用时间系列
高效率Pandas:eval()以及query()
第四章使用Matplotlib进行视觉化
通用的Matplotlib技巧
买一送一的介面
简单的线条图形
简单的散布图
视觉化误差
密度图和等高线图
直方图、分箱法及密度
自订图表的图例
自订色彩条
多重子图表
文字和注解
自订刻度
客制化Matplotlib:系统配置和样式表
在Matplotlib中的三维绘图法
Basemap的地理资料
使用Seaborn进行视觉化
第五章机器学习
什么是机器学习?
Scikit-Learn简介
超参数以及模型验证
特征工程
深入探究:Naive Bayes Classification
深入探究:线性回归(Linear Regression)
深入探究:Support Vector Machines
深入探究:决策树(Decision Tree)和随机森林(Random Forest)
深入探究:主成份分析(Principal Component Analysis)
深入探究:流形学习(Manifold Learning)
深入探究:k-平均集群法
深入探究:高斯混合模型(Gaussian Mixture Models)
深入探究:核密度估计(Kernel Density Estimation)
应用:脸部辨识的管线
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“P548” 就可以获取《【干货书】Python 数据科学学习手册,548页pdf》专知下载链接