使用Python和PySpark进行数据分析可以帮助您解决使用PySpark进行数据科学的日常挑战。您将了解如何在从任何源(Hadoop集群、云数据存储或本地数据文件)获取数据的同时,在多台机器上扩展处理能力。一旦您了解了这些基础知识,您将通过构建机器学习管道,并混合Python、pandas和PySpark代码来探索PySpark的全面通用性。