获取关于在Python中操作、处理、清理和处理数据集的完整说明。本实用指南的第二版针对Python 3.6进行了更新,包含了大量的实际案例研究,向您展示了如何有效地解决广泛的数据分析问题。在这个过程中,您将学习最新版本的pandas、NumPy、IPython和Jupyter。 本书由Wes McKinney (Python pandas项目的创建者)撰写,是一本实用的、现代的Python数据科学工具介绍书。它非常适合刚接触Python的分析师和刚接触数据科学和科学计算的Python程序员。数据文件和相关材料可在GitHub上获得。
使用IPython shell和Jupyter笔记本进行探索性计算 * 学习NumPy (Numerical Python)的基本和高级特性 * 开始使用pandas库中的数据分析工具 * 使用灵活的工具来加载、清理、转换、合并和重塑数据 * 使用matplotlib创建信息可视化 * 应用pandas groupby工具对数据集进行切片、切丁和汇总 * 分析和操作规则和不规则时间序列数据 * 了解如何通过全面、详细的示例解决真实世界的数据分析问题
获取使用Python操作、处理、清理和处理数据集的权威手册。对于Python 3.10和pandas 1.4的更新,这个实践指南的第三版包含了实践案例研究,向您展示如何有效地解决大量数据分析问题。在此过程中,您将了解最新版本的pandas、NumPy和Jupyter。
本书涉及Python中操作、处理、清理和处理数据的具体细节。我的目标是为Python编程语言的各个部分及其面向数据的库生态系统和工具提供指导,帮助您成为一名有效的数据分析师。虽然“数据分析”在这本书的标题中,但重点是Python编程、库和工具,而不是数据分析方法。这是数据分析所需的Python编程。
在我2012年最初出版这本书之后的某个时候,人们开始用数据科学这个术语来概括从简单的描述性统计到更高级的统计分析和机器学习的一切。从那时起,用于进行数据分析(或数据科学)的Python开源生态系统也得到了显著的扩展。现在有很多其他的书专门关注这些更高级的方法。我希望本书能够为您提供充分的准备,使您能够转向更具体的领域资源。
目录内容:
Preface * Preliminaries * Python Language Basics, IPython, and Jupyter Notebooks * Built-In Data Structures, Functions, and Files * NumPy Basics: Arrays and Vectorized Computation * Getting Started with pandas * Data Loading, Storage, and File Formats * Data Cleaning and Preparation * Data Wrangling: Join, Combine, and Reshape * Plotting and Visualization
Data Aggregation and Group Operations* Time Series * Introduction to Modeling Libraries in Python * Data Analysis Examples * Advanced NumPy * More on the IPython System * Index * About the Author