利用机器和深度学习模型,使用PySpark在实时数据上构建应用程序。这本书对于那些想要学习使用这种语言来执行探索性数据分析和解决一系列商业挑战的人来说是完美的。
您将从回顾PySpark的基础知识开始,例如Spark的核心架构,并了解如何使用PySpark进行大数据处理,如数据摄取、清理和转换技术。接下来,使用PySpark构建用于分析流数据的工作流,并比较各种流平台。
然后,您将看到如何使用带PySpark的气流调度不同的Spark作业,并通过本书检查调优机和深度学习模型进行实时预测。本书最后讨论了图帧以及在PySpark中使用图算法执行网络分析。书中提供的所有代码都可以在Github的Python脚本中找到。