主题: Mastering Large Datasets with Python
简介: 使用Python掌握大型数据集可以教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业大小的数据集。随着map和reduce范例的稳固就位,您将探索Hadoop和PySpark等工具,以高效地处理大量分布式数据集,使用机器学习加快决策,并使用AWS S3简化数据存储。
作者简介: John T. Wolohan是Booz Allen Hamilton的首席数据科学家,也是印第安纳大学的博士研究员。