主题: Mastering Large Datasets with Python

简介: 使用Python掌握大型数据集可以教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业大小的数据集。随着map和reduce范例的稳固就位,您将探索Hadoop和PySpark等工具,以高效地处理大量分布式数据集,使用机器学习加快决策,并使用AWS S3简化数据存储。

作者简介: John T. Wolohan是Booz Allen Hamilton的首席数据科学家,也是印第安纳大学的博士研究员。

成为VIP会员查看完整内容
49

相关内容

Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,同时也是一种功能强大的通用型语言。
专知会员服务
165+阅读 · 2020年6月4日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
34个最优秀好用的Python开源框架
专知
9+阅读 · 2019年3月1日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关VIP内容
专知会员服务
165+阅读 · 2020年6月4日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
相关资讯
34个最优秀好用的Python开源框架
专知
9+阅读 · 2019年3月1日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
微信扫码咨询专知VIP会员