要重视你的数据!PySpark为Python生态系统带来了强大的Spark大数据处理引擎,让您可以无缝地扩展数据任务,并创建闪电般快速的管道。
在Python和PySpark的数据分析中,你将学习如何:
在数据跨多台机器扩展时管理数据
满怀信心地扩展您的数据程序
在各种源和格式之间读写数据
使用PySpark的数据操作功能处理混乱的数据
发现新的数据集并进行探索性数据分析
构建自动化的数据管道,用于转换、总结和从数据中获得洞察力
解决常见的PySpark错误
创建可靠的长时间运行的作业
使用Python和PySpark进行数据分析是交付成功的Python驱动数据项目的指南。这本实用的书包含了相关的例子和基本的技术,教你如何为报告、机器学习和其他以数据为中心的任务构建管道。每一章中的快速练习可以帮助您实践所学的知识,并迅速开始在数据系统中实现PySpark。不需要之前的Spark知识。
使用Python和PySpark进行数据分析可以帮助您解决使用PySpark进行数据科学的日常挑战。您将了解如何在从任何源(Hadoop集群、云数据存储或本地数据文件)获取数据的同时,在多台机器上扩展处理能力。一旦您了解了这些基础知识,您将通过构建机器学习管道,并混合Python、pandas和PySpark代码来探索PySpark的全面通用性。
https://www.manning.com/books/data-analysis-with-python-and-pyspark
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“P458” 就可以获取《【Manning2022新书】Python与PySpark的数据分析,458页pdf》专知下载链接
请扫码加入专知人工智能群(长按二维码),或者加专知小助手微信(zhuanzhi02),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG、论文等)交流~