【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

大纲： 前言

大数据学习路线
大数据技术栈思维导图
大数据常用软件安装指南

一、Hadoop

分布式文件存储系统 —— HDFS
分布式计算框架 —— MapReduce
集群资源管理器 —— YARN
Hadoop 单机伪集群环境搭建
Hadoop 集群环境搭建
HDFS 常用 Shell 命令
HDFS Java API 的使用
基于 Zookeeper 搭建 Hadoop 高可用集群

二、Hive

Hive 简介及核心概念
Linux 环境下 Hive 的安装部署
Hive CLI 和 Beeline 命令行的基本使用
Hive 常用 DDL 操作
Hive 分区表和分桶表
Hive 视图和索引
Hive常用 DML 操作
Hive 数据查询详解

三、Spark

Spark Core :
Spark 简介
Spark 开发环境搭建
弹性式数据集 RDD
RDD 常用算子详解
Spark 运行模式与作业提交
Spark 累加器与广播变量
基于 Zookeeper 搭建 Spark 高可用集群
Spark SQL :
DateFrame 和 DataSet
Structured API 的基本使用
Spark SQL 外部数据源
Spark SQL 常用聚合函数
Spark SQL JOIN 操作
Spark Streaming ：
Spark Streaming 简介
Spark Streaming 基本操作
Spark Streaming 整合 Flume
Spark Streaming 整合 Kafka

四、Storm

Storm 和流处理简介
Storm 核心概念详解
Storm 单机环境搭建
Storm 集群环境搭建
Storm 编程模型详解
Storm 项目三种打包方式对比分析
Storm 集成 Redis 详解
Storm 集成 HDFS/HBase
Storm 集成 Kafka

五、Flink

Flink 核心概念综述
Flink 开发环境搭建
Flink Data Source
Flink Data Transformation
Flink Data Sink
Flink 窗口模型
Flink 状态管理与检查点机制
Flink Standalone 集群部署

六、HBase

Hbase 简介
HBase 系统架构及数据结构
HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
HBase 集群环境搭建
HBase 常用 Shell 命令
HBase Java API
Hbase 过滤器详解
HBase 协处理器详解
HBase 容灾与备份
HBase的 SQL 中间层 —— Phoenix
Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

Kafka 简介
基于 Zookeeper 搭建 Kafka 高可用集群
Kafka 生产者详解
Kafka 消费者详解
深入理解 Kafka 副本机制

八、Zookeeper

Zookeeper 简介及核心概念
Zookeeper 单机环境和集群环境搭建
Zookeeper 常用 Shell 命令
Zookeeper Java 客户端 —— Apache Curator
Zookeeper ACL 权限控制

九、Flume

Flume 简介及基本使用
Linux 环境下 Flume 的安装部署
Flume 整合 Kafka

十、Sqoop

Sqoop 简介与安装
Sqoop 的基本使用

十一、Azkaban

Azkaban 简介
Azkaban3.x 编译及部署
Azkaban Flow 1.0 的使用
Azkaban Flow 2.0 的使用

十二、Scala

Scala 简介及开发环境配置
基本数据类型和运算符
流程控制语句
数组 —— Array
集合类型综述
常用集合类型之 —— List & Set
常用集合类型之 —— Map & Tuple
类和对象
继承和特质
函数 & 闭包 & 柯里化
模式匹配
类型参数
隐式转换和隐式参数

十三、公共内容

大数据应用常用打包方式

成为VIP会员查看完整内容

相关内容

Spark

关注 51

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日