Spark 凭什么成为最火的大数据计算引擎?| 极客时间

2020 年 11 月 3 日 InfoQ
者 | 王磊

如今,Spark 成为大数据领域的必备计算引擎已是不争的事实。它的批量计算在生产环境中基本替代了传统 MapReduce 计算和 Storm 流式计算。同时,随着人工智能的迅速发展,Spark 近几年也持续在机器学习和 AI 方向发力,在集群学习的模型训练中起到了至关重要的作用。

可以说,无论你是大数据工程师,还是机器学习等算法工程师,Spark 都是必须要掌握的一个计算引擎。

为什么 Spark 这么强大呢?这和它本身的特点有直接关系,比如它提供了 80 多个高级运算操作,易于使用,计算速度快,且支持多种资源管理器、生态圈丰富,对于我们常见的数据分析、数据探索、批处理等场景,它都能提供很好的解决方案。


从这个图可以看出来,Spark 有很多优点,这也是它能够被广泛应用的主要原因。同时,全面了解 Spark 的特点,也可以让我们在技术选型,以及利用 Spark 做数据分析处理时更加明确。

但想要彻底掌握 Spark 引擎并非易事,在自学 Spark 的过程中难免会遇到一些难点:

  • 要学好 Spark 首先需要了解其背后的原理,为我们后续基于不同场景选择不同的算子和进行算子优化打下坚实的基础。但对于很多初学者来说,要充分理解原理,尤其当代码在分布式环境下运行时,是有一定难度的。

  • 大数据计算首先需要有大量的数据才能有更好的分析结果,因此基于真实数据的实战是掌握 Spark 的关键。因此学习者必须拥有良好的数据模型设计能力,为 Spark 的高效运行创造条件。

  • 如何进行海量数据的任务调优?同样的数据和任务,因为不同时间可调度的物理资源的不同,上一次成功的经验,也许到这一次就导致任务失败了。只有良好的自动化调度和重试机制有利于保障系统任务长期稳定的运行。

在与大数据打交道的 10 多年里,我发现学习的关键在于“理解 Spark 的原理,并且基于真实数据的实战”,但开发者们平时少有机会接触真实丰富的业务场景,又或是基于真实数据的开发实战。

为了让更多的人能够真正掌握 Spark 计算引擎,我与极客时间合作,把我 10 多年的经验和心法,输出为《Spark 核心原理与实战》视频课,希望能够通过结合我在工作中的实际经验和实战案例,来帮助大家理解 Spark 分布式计算引擎。


扫码试读👆

结算时,输入优惠口令「sparkgogo」

到手仅 ¥89,立省 ¥40

新用户首单仅需 ¥1

我是谁?

我是王磊,也是《offer 来了:Java 面试核心知识点精讲》原理篇和架构篇两本书的作者。曾任职于中国航天工业研究所、东方网力、易点天下,从事物联网和大数据方面的研发工作,现任 Yeahmobi 大数据架构师。

我进入大数据行业已经有十余年的时间了,调研过大部分大数据分析解决方案,也在项目中使用过各种主流的解决方案,而是 Spark 更是在项目中应用最广泛的产品。在 Spark 的使用过程中,我不但了解了 Spark 背后的原理,也积累了大量的 Spark 实战经验,在这门课程中,我会将这些宝贵的经验分享给你,给你在开发过程中遇到的问题,提供行之有效的处理方法,让你避免踩坑。

我是如何讲解 Spark 分布式计算引擎的?

无论是仅仅知道理论知识而缺乏实战经验,还是在不了解原理的情况下就进行太多的源码实战,从而仅仅成为一个 Spark API 使用者,这两种情况都不利于 Spark 的学习。因此在带大家逐步掌握 Spark 的过程中,我会先聊透原理,再进行代码实战。

在课程中,我将带你全面掌握 Spark 内核原理、Spark 资源调度、Spark 离线计算、Spark 流式计算、Spark 任务调优、Spark 机器学习等知识。

在最后的章节中,我还会介绍大数据的未来趋势相关技术,比如数据湖和 AI,为你在未来决胜大数据计算打下坚实的基础。

另外,课程中还会介绍 Spark 机器学习部分的内容,由于考虑到大部分同学可能未接触过机器学习,因此首先会进行机器学习的基本原理介绍,以便你在使用 Spark 提供的机器学习函数时,对其背后的原理有更加清晰的认识。

无论你是刚开始学习 Spark,还是已经有了几年 Spark 开发经验,相信都能在课程中找到收获。


限时订阅福利
  1. 早鸟优惠 ¥99,原价 ¥129。结算时,输入优惠口令「sparkgogo」,优惠基础上再减 ¥10,到手价 ¥89,仅限「前 200 人」有效。

  2. 订阅后分享海报,每邀请一位好友订阅,可得 ¥36 返现,多邀多得,上不封顶。

  3. 新用户首单仅需 ¥1

温馨提示:

订阅后可通过「极客时间 App」或「极客时间小程序」我的 - 已购,学习已订阅的专栏。


👇点击「阅读原文」

输入优惠口令「sparkgogo」

最低价 ¥89 入手,仅限前 200 人

登录查看更多
0

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
苏宁大数据离线任务开发调度平台实践
AI前线
5+阅读 · 2018年11月5日
Flink 靠什么征服饿了么工程师?
阿里技术
6+阅读 · 2018年8月13日
阿里新一代实时计算引擎:Blink
InfoQ
3+阅读 · 2018年3月26日
Spark App自动化分析和故障诊断
CSDN大数据
7+阅读 · 2017年6月22日
Arxiv
0+阅读 · 2021年1月26日
VIP会员
相关资讯
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
苏宁大数据离线任务开发调度平台实践
AI前线
5+阅读 · 2018年11月5日
Flink 靠什么征服饿了么工程师?
阿里技术
6+阅读 · 2018年8月13日
阿里新一代实时计算引擎:Blink
InfoQ
3+阅读 · 2018年3月26日
Spark App自动化分析和故障诊断
CSDN大数据
7+阅读 · 2017年6月22日
Top
微信扫码咨询专知VIP会员