Python是访问、操作和从各种数据中获得见解的理想选择。Python for Data Science通过根植于实际示例和实践活动的边做边学的方法向您介绍Python的数据分析世界。您将学习如何编写Python代码来获取、转换和分析数据,为业务管理、市场营销和决策支持中的用例实践最先进的数据处理技术。
您将发现Python丰富的用于基本操作的内置数据结构集,以及用于数据科学的健壮的开源库生态系统,包括NumPy、pandas、scikit-learn、matplotlib等。这些示例展示了如何以各种格式加载数据,如何简化、分组和聚合数据集,以及如何创建图表、地图和其他可视化功能。后面的章节将深入展示真实世界的数据应用,包括使用位置数据为出租车服务提供动力,市场篮子分析来识别共同购买的商品,以及机器学习来预测股票价格。
这本书从数据处理和分析的概念介绍开始,解释一个典型的数据处理管道。然后,我们将介绍Python的内置数据结构和一些广泛用于数据科学应用程序的第三方Python库。接下来,我们将探讨用于获取、组合、聚合、分组、分析和可视化不同大小和数据类型的数据集的日益复杂的技术。随着本书的深入,我们将把Python数据科学技术应用到商业管理、市场营销和金融领域的实际用例中。每一章都包含“练习”部分,这样你就可以练习和巩固你刚刚学到的知识。
第一章: 数据的基础知识为理解使用数据的基本要素提供了必要的背景知识。您将了解到数据有不同的类别,包括结构化、非结构化和半结构化数据。然后,您将了解典型数据分析过程中涉及的步骤。
第二章:Python数据结构介绍Python内置的四种数据结构:列表、字典、元组和集合。您将看到如何使用每个结构,以及如何将它们组合成更复杂的结构,可以表示现实世界的对象。
第三章:Python数据科学库讨论了Python健壮的第三方数据分析和操作库生态系统。您将看到pandas库及其主要数据结构Series和DataFrame,它们已经成为面向数据的Python应用程序的实际标准。您还将了解NumPy和scikit-learn,这两个库通常用于数据科学。
第四章:从文件和api访问数据深入了解获取数据并将其加载到脚本中的细节。您将学习如何将不同来源的数据(如文件和api)加载到Python脚本中的数据结构中,以便进行进一步处理。
第五章:使用数据库继续讨论将数据导入Python,涵盖了如何使用数据库数据。您将看到访问和操作存储在不同类型数据库中的数据的示例,包括关系数据库(如MySQL)和NoSQL数据库(如MongoDB)。 第六章:聚合数据通过对数据进行分组并进行聚合计算来解决汇总数据的问题。您将学习使用pandas对数据进行分组,并生成小计、总计和其他聚合。 第七章:结合数据集介绍了如何将来自不同数据源的数据组合为一个单独的数据集。您将学习SQL开发人员用于连接数据库表的技术,并将它们应用于内置的Python数据结构、NumPy数组和pandas DataFrames。 第八章:创建可视化讨论可视化是最自然的方式揭露隐藏的数据中的模式。您将了解不同类型的可视化,如线形图、条形图和直方图,并将了解如何使用用于绘图的主要Python库Matplotlib创建它们。您还将使用Cartopy库来生成映射。 第九章:分析位置数据解释如何使用geopy和Shapely库处理位置数据。您将学习获取和使用静止和移动物体的GPS坐标的方法,并将探索拼车服务如何为给定的皮卡识别最佳汽车的现实世界示例。 第十章:分析时间序列数据提出了一些分析技术可以应用于时间序列数据中提取有意义的数据。特别地,本章中的例子说明了时间序列数据分析如何应用于股票市场数据。 第十一章:从数据中获得洞察力探讨了从数据中获得洞察力的策略,以便做出明智的决定。例如,您将学习如何发现超市中销售的产品之间的关联,从而确定在一次交易中经常一起购买的商品组(对推荐和促销有用)。 第十二章:机器学习数据分析涵盖了使用scikitlearn先进的数据分析任务。您将训练机器学习模型,根据产品的星级评级对产品评论进行分类,并预测股票价格的趋势。