使用Pandas进行Python数据分析管理与自动化 如今,分析师必须处理具有多样性、速度和大数据量特征的数据。使用开源的Pandas库,你可以利用Python快速自动化和执行几乎任何数据分析任务,无论数据量多大或复杂程度如何。Pandas可以帮助你确保数据的真实性,直观地展示数据,以便进行有效决策,并在多个数据集之间可靠地重现分析结果。 《人人都会用的Pandas:Python数据分析(第2版)》汇集了使用Pandas解决实际问题的实用知识和见解,即使你是Python数据分析的新手。Daniel Y. Chen通过简单但实用的例子引入了关键概念,逐步建立这些概念,以解决更复杂的现实世界数据科学问题,如使用正则化防止数据过拟合,或在何时使用无监督机器学习方法来发现数据集中的潜在结构。 第二版的新功能包括: * 扩展的绘图和seaborn数据可视化库的覆盖 * 扩展的示例和资源 * 更新的Python 3.9代码和包覆盖,包括statsmodels和scikit-learn库 * 关于geopandas、Dask和使用Altair创建交互式图形的在线额外材料
Chen通过一个真实的数据集,帮助你快速上手Pandas,并涵盖了数据集的组合、缺失数据的处理,以及使数据集更容易分析和可视化的结构化方法。他演示了强大的数据清理技术,从基本的字符串操作到同时在数据框上应用函数。 一旦数据准备就绪,Chen将指导你通过拟合模型进行预测、聚类、推断和探索。他提供了关于性能和可扩展性的提示,并将你引导至更广泛的Python数据分析生态系统。 书中的内容包括: * 使用DataFrames和Series,导入或导出数据 * 使用matplotlib、seaborn和pandas创建图表 * 组合数据集并处理缺失数据 * 重塑、整理和清理数据集,使其更易于使用 * 转换数据类型和操作文本字符串 * 应用函数以扩展数据操作 * 使用groupby对大型数据集进行聚合、转换和过滤 * 利用Pandas的高级日期和时间功能 * 使用statsmodels和scikit-learn库拟合线性模型 * 使用广义线性建模来拟合具有不同响应变量的模型 * 比较多个模型以选择“最佳”模型 * 正则化以克服过拟合并提高性能 * 在无监督机器学习中使用聚类
关于作者 Daniel Chen是弗吉尼亚理工学院(Virginia Tech)遗传学、生物信息学与计算生物学(GBCB)跨学科博士项目的研究生。他作为导师委员会成员和评估委员会主席参与了Software Carpentry的教学工作。他在哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)获得流行病学硕士学位,拥有高级流行病学证书,并在弗吉尼亚生物信息学研究所的社会与决策分析实验室延续他的硕士论文工作,研究社交网络中的态度扩散。