《突击pyspark：数据挖掘的力量倍增器》让码农玩转大数据的利器 - 专知

会员服务 ·

0

《突击pyspark：数据挖掘的力量倍增器》让码农玩转大数据的利器

2018 年 12 月 25 日 炼数成金订阅号

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark 作为MapReduce的新一代继承者。是对map reduce从性能，易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理，复杂迭代算法，比传统Hadoop MapReduce 程序快100倍。

Python语言时当下数据领域的瑞士军刀，但是作为一门脚本语言python先天只能在一台机器上发展，不适合分析大数据，因此需要其他大数据软件来处理，Spark虽然是由Scala编写，但也提供了Pyspark，让熟悉Python者能够轻易熟悉操作大数据。

本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构， pySpark、Hadoop的实战技巧，Spark、Hadoop经典案例等。

通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握pySpark、Hadoop等初中级应用开发技能，让你的python水平更上层楼。

课程大纲：

第一课.spark介绍

hadoop、spark集群环境搭建

pyspark开发环境搭建

spark 1.x和2.x的对比

第二课.pySpark核心编程模型

RDD、transformation、action

第三课.pySpark核心编程实战

lineage、容错处理、宽依赖与窄依赖

第四课.Spark内核详解剖析

Spark术语解释、集群概览、核心组件、数据本地性

第五课.spark任务调度详解

RDD任务调度(DAGScheduler ,TaskScheduler)、Task细节、广播变量、累加器

第六课.spark工程经验和性能调优

第七课.spark SQL 详解

DataFrame、外部数据源API、与Spark其他组件的交互、

第八课.spark sql编程实战

Catalyst查询优化器、Tungsten 优化

第九课.spark streaming 开发

Dstream、数据源、容错

第十课.spark运维技能

授课时间：

课程预计2018年12月29日开课，预计课程持续时间为12周

授课对象：

本课程面向喜欢Python的学员，课程分为spark core、spark sql、spark streaming三个摸块。理论结合实战，让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。

课程环境：

spark 2.*

收获预期：

1. 掌握Spark核心原理;

2. 了解如何对Spark Job进行性能优化;

3.. 掌握Spark Streaming的原理及使用方式

4. 了解SQL引擎的原理，掌握Spark SQL的使用和优化方式

授课讲师：

pyther，十年IT工作经验，曾就职阿里巴巴、雅虎，现为大数据独立顾问。

点击下方二维码或阅读原文报名课程：

登录查看更多

1

相关内容

PySpark

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【经典书】深度学习，532页pdf，Deep Learning - A Practitioner's Approach

【经典书】深度学习，532页pdf，Deep Learning - A Practitioner's Approach

专知会员服务

138+阅读 · 2020年4月3日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

【干货书】流畅Python，766页pdf，中英文版

【干货书】流畅Python，766页pdf，中英文版

专知会员服务

226+阅读 · 2020年3月22日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

195+阅读 · 2020年3月12日

【2020新书】Python大数据处理，Mastering Large Datasets with Python

【2020新书】Python大数据处理，Mastering Large Datasets with Python

专知会员服务

54+阅读 · 2020年2月2日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

196+阅读 · 2020年2月1日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

96+阅读 · 2019年12月4日

社区分享 | Spark 玩转 TensorFlow 2.0

社区分享 | Spark 玩转 TensorFlow 2.0

TensorFlow

15+阅读 · 2020年3月18日

40张PPT，帮你轻松入门Spark大数据！BAT架构师制作！

40张PPT，帮你轻松入门Spark大数据！BAT架构师制作！

七月在线实验室

19+阅读 · 2019年5月27日

廖雪峰历时3个月打磨出价值1980的数据分析教程，终终终于免费啦！！！

廖雪峰历时3个月打磨出价值1980的数据分析教程，终终终于免费啦！！！

机器学习算法与Python学习

3+阅读 · 2019年5月6日

对不起，我们公司不招过了25岁还不懂数据分析的人

对不起，我们公司不招过了25岁还不懂数据分析的人

Python程序员

3+阅读 · 2019年4月16日

赠书！2019年4月上旬值得一读的10本技术书籍（Python、大数据、深度学习等）！

赠书！2019年4月上旬值得一读的10本技术书籍（Python、大数据、深度学习等）！

云栖社区

12+阅读 · 2019年3月27日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

福利丨晚来天欲雪，一起囤大数据好书吗？

福利丨晚来天欲雪，一起囤大数据好书吗？

DBAplus社群

4+阅读 · 2017年12月13日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

超越Spark，大数据集群计算的生产实践（内含福利）

超越Spark，大数据集群计算的生产实践（内含福利）

CSDN大数据

6+阅读 · 2017年9月15日

Neural Graph Collaborative Filtering

Arxiv

8+阅读 · 2019年5月20日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Learning Graph Embedding with Adversarial Training Methods

Learning Graph Embedding with Adversarial Training Methods

Arxiv

6+阅读 · 2019年1月4日

Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision

Arxiv

3+阅读 · 2018年11月15日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Arxiv

5+阅读 · 2018年9月28日

Self-Attention Generative Adversarial Networks

Arxiv

8+阅读 · 2018年5月21日

Billion-scale Network Embedding with Iterative Random Projection

Arxiv

5+阅读 · 2018年5月7日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

VIP会员

相关主题

相关VIP内容

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【经典书】深度学习，532页pdf，Deep Learning - A Practitioner's Approach

【经典书】深度学习，532页pdf，Deep Learning - A Practitioner's Approach

专知会员服务

138+阅读 · 2020年4月3日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

【干货书】流畅Python，766页pdf，中英文版

【干货书】流畅Python，766页pdf，中英文版

专知会员服务

226+阅读 · 2020年3月22日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

195+阅读 · 2020年3月12日

【2020新书】Python大数据处理，Mastering Large Datasets with Python

【2020新书】Python大数据处理，Mastering Large Datasets with Python

专知会员服务

54+阅读 · 2020年2月2日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

196+阅读 · 2020年2月1日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

96+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《国防系统提升可靠性与维护性评估效能的实践准则》最新64页

Meta挖到OpenAI大动脉，思维链发明者JasonWei 研究成果盘点

《海战法：海战中的人工智能与自主系统》最新45页

《美军条令：行动后评估》2025最新36页

相关资讯

社区分享 | Spark 玩转 TensorFlow 2.0

社区分享 | Spark 玩转 TensorFlow 2.0

TensorFlow

15+阅读 · 2020年3月18日

40张PPT，帮你轻松入门Spark大数据！BAT架构师制作！

40张PPT，帮你轻松入门Spark大数据！BAT架构师制作！

七月在线实验室

19+阅读 · 2019年5月27日

廖雪峰历时3个月打磨出价值1980的数据分析教程，终终终于免费啦！！！

廖雪峰历时3个月打磨出价值1980的数据分析教程，终终终于免费啦！！！

机器学习算法与Python学习

3+阅读 · 2019年5月6日

对不起，我们公司不招过了25岁还不懂数据分析的人

对不起，我们公司不招过了25岁还不懂数据分析的人

Python程序员

3+阅读 · 2019年4月16日

赠书！2019年4月上旬值得一读的10本技术书籍（Python、大数据、深度学习等）！

赠书！2019年4月上旬值得一读的10本技术书籍（Python、大数据、深度学习等）！

云栖社区

12+阅读 · 2019年3月27日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

福利丨晚来天欲雪，一起囤大数据好书吗？

福利丨晚来天欲雪，一起囤大数据好书吗？

DBAplus社群

4+阅读 · 2017年12月13日

【大数据】数据挖掘与数据分析知识流程梳理

【大数据】数据挖掘与数据分析知识流程梳理

产业智能官

13+阅读 · 2017年9月22日

超越Spark，大数据集群计算的生产实践（内含福利）

超越Spark，大数据集群计算的生产实践（内含福利）

CSDN大数据

6+阅读 · 2017年9月15日

相关论文

Neural Graph Collaborative Filtering

Arxiv

8+阅读 · 2019年5月20日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Learning Graph Embedding with Adversarial Training Methods

Learning Graph Embedding with Adversarial Training Methods

Arxiv

6+阅读 · 2019年1月4日

Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision

Arxiv

3+阅读 · 2018年11月15日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Arxiv

5+阅读 · 2018年9月28日

Self-Attention Generative Adversarial Networks

Arxiv

8+阅读 · 2018年5月21日

Billion-scale Network Embedding with Iterative Random Projection

Arxiv

5+阅读 · 2018年5月7日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

大家都在搜

久别重逢话双塔

生成式人工智能

军事人工智能

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员