获得干净的数据来获取见解是至关重要的,因为不进行适当的数据清理就直接进行数据分析可能会导致错误的结果。本书向您展示了使用Python清理和处理数据的工具和技术。首先,您将通过使用大多数数据源来熟悉数据的状况。然后,这本书教你如何使用数据,使其变成有用的形式。您还将学习如何过滤和总结数据,以获得深刻的见解,更好地理解什么是有意义的,什么是没有意义的,同时还将发现如何对数据进行操作,以解决您发现的问题。
接下来,您将学习关键任务,如处理缺失值、验证错误、删除重复数据、监控大量数据以及处理异常值和无效日期。接下来,您将介绍如何使用监督学习和朴素贝叶斯分析来识别意外值和分类错误,并为探索性数据分析(EDA)生成可视化来可视化意外值。最后,您将构建在有新数据时无需修改即可重用的函数和类。
读完这本Python书,您将掌握清理数据和诊断其中问题所需的所有关键技能。
这本书涵盖了以下激动人心的特点: 了解如何从各种来源读取和分析数据 生成数据帧、列和行属性的摘要 过滤数据并选择满足给定条件的感兴趣的列 处理杂乱的数据问题,包括处理日期和缺失的值 通过使用方法链接来提高Python pandas 的工作效率 使用可视化来获得额外的见解并识别潜在的数据问题 增强您了解数据中正在发生什么的能力 构建用户定义的函数和类来自动化数据清理