https://www.manning.com/books/mastering-large-datasets-with-python

现代数据科学解决方案需要简洁、易于阅读和可伸缩。在《用Python掌握大型数据集》一书中,作者J.T. Wolohan向您介绍了如何使用Python编码的功能影响方法来处理小型项目并对其进行扩展。您将探索有助于清晰性和可伸缩性的方法和内置Python工具,比如高性能并行方法,以及支持高数据吞吐量的分布式技术。本实用教程中丰富的实践练习将为任何大型数据科学项目锁定这些基本技能。

对这项技术

当应用于大量文件或分布式数据集时,在笔记本大小的数据上运行良好的编程技术可能会变慢,甚至完全失败。通过掌握强大的map和reduce范型,以及支持它的基于python的工具,您可以编写以数据为中心的应用程序,这些应用程序可以有效地扩展,而不需要在需求发生变化时重写代码库。

关于这本书

使用Python掌握大型数据集教会您编写可以处理任何大小的数据集的代码。您将从笔记本大小的数据集开始,这些数据集通过将大任务分解为可以同时运行的小任务来教会您并行化数据分析。然后将这些程序扩展到云服务器集群上的工业级数据集。有了map和reduce范型,您将探索像Hadoop和PySpark这样的工具来有效地处理大量的分布式数据集,使用机器学习加速决策制定,并使用AWS S3简化数据存储。

里面有什么

  • 对map和reduce范例的介绍

  • 并行化与多处理模块框架

  • 分布式计算的Hadoop和Spark

  • 运行AWS作业来处理大型数据集

成为VIP会员查看完整内容
191

相关内容

Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,同时也是一种功能强大的通用型语言。
专知会员服务
165+阅读 · 2020年6月4日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Python导论,476页pdf,现代Python计算
专知会员服务
253+阅读 · 2020年5月17日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
这几本Python新书特别赞
图灵教育
19+阅读 · 2018年3月1日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
Python NLP 入门教程
大数据技术
19+阅读 · 2017年10月24日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
7+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关VIP内容
专知会员服务
165+阅读 · 2020年6月4日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Python导论,476页pdf,现代Python计算
专知会员服务
253+阅读 · 2020年5月17日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
相关资讯
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
这几本Python新书特别赞
图灵教育
19+阅读 · 2018年3月1日
Python & 机器学习之项目实践 | 赠书
人工智能头条
12+阅读 · 2017年12月26日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
Python NLP 入门教程
大数据技术
19+阅读 · 2017年10月24日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
微信扫码咨询专知VIP会员