大纲: 前 言

  • 大数据学习路线
  • 大数据技术栈思维导图
  • 大数据常用软件安装指南

一、Hadoop

  • 分布式文件存储系统 —— HDFS
  • 分布式计算框架 —— MapReduce
  • 集群资源管理器 —— YARN
  • Hadoop 单机伪集群环境搭建
  • Hadoop 集群环境搭建
  • HDFS 常用 Shell 命令
  • HDFS Java API 的使用
  • 基于 Zookeeper 搭建 Hadoop 高可用集群

二、Hive

  • Hive 简介及核心概念
  • Linux 环境下 Hive 的安装部署
  • Hive CLI 和 Beeline 命令行的基本使用
  • Hive 常用 DDL 操作
  • Hive 分区表和分桶表
  • Hive 视图和索引
  • Hive常用 DML 操作
  • Hive 数据查询详解

三、Spark

  • Spark Core :
  • Spark 简介
  • Spark 开发环境搭建
  • 弹性式数据集 RDD
  • RDD 常用算子详解
  • Spark 运行模式与作业提交
  • Spark 累加器与广播变量
  • 基于 Zookeeper 搭建 Spark 高可用集群
  • Spark SQL :
  • DateFrame 和 DataSet
  • Structured API 的基本使用
  • Spark SQL 外部数据源
  • Spark SQL 常用聚合函数
  • Spark SQL JOIN 操作
  • Spark Streaming :
  • Spark Streaming 简介
  • Spark Streaming 基本操作
  • Spark Streaming 整合 Flume
  • Spark Streaming 整合 Kafka

四、Storm

  • Storm 和流处理简介
  • Storm 核心概念详解
  • Storm 单机环境搭建
  • Storm 集群环境搭建
  • Storm 编程模型详解
  • Storm 项目三种打包方式对比分析
  • Storm 集成 Redis 详解
  • Storm 集成 HDFS/HBase
  • Storm 集成 Kafka

五、Flink

  • Flink 核心概念综述
  • Flink 开发环境搭建
  • Flink Data Source
  • Flink Data Transformation
  • Flink Data Sink
  • Flink 窗口模型
  • Flink 状态管理与检查点机制
  • Flink Standalone 集群部署

六、HBase

  • Hbase 简介
  • HBase 系统架构及数据结构
  • HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  • HBase 集群环境搭建
  • HBase 常用 Shell 命令
  • HBase Java API
  • Hbase 过滤器详解
  • HBase 协处理器详解
  • HBase 容灾与备份
  • HBase的 SQL 中间层 —— Phoenix
  • Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

  • Kafka 简介
  • 基于 Zookeeper 搭建 Kafka 高可用集群
  • Kafka 生产者详解
  • Kafka 消费者详解
  • 深入理解 Kafka 副本机制

八、Zookeeper

  • Zookeeper 简介及核心概念
  • Zookeeper 单机环境和集群环境搭建
  • Zookeeper 常用 Shell 命令
  • Zookeeper Java 客户端 —— Apache Curator
  • Zookeeper ACL 权限控制

九、Flume

  • Flume 简介及基本使用
  • Linux 环境下 Flume 的安装部署
  • Flume 整合 Kafka

十、Sqoop

  • Sqoop 简介与安装
  • Sqoop 的基本使用

十一、Azkaban

  • Azkaban 简介
  • Azkaban3.x 编译及部署
  • Azkaban Flow 1.0 的使用
  • Azkaban Flow 2.0 的使用

十二、Scala

  • Scala 简介及开发环境配置
  • 基本数据类型和运算符
  • 流程控制语句
  • 数组 —— Array
  • 集合类型综述
  • 常用集合类型之 —— List & Set
  • 常用集合类型之 —— Map & Tuple
  • 类和对象
  • 继承和特质
  • 函数 & 闭包 & 柯里化
  • 模式匹配
  • 类型参数
  • 隐式转换和隐式参数

十三、公共内容

  • 大数据应用常用打包方式
成为VIP会员查看完整内容
96

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
77+阅读 · 2020年4月24日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
68+阅读 · 2020年3月9日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
70+阅读 · 2020年1月17日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
98+阅读 · 2019年12月14日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
88+阅读 · 2019年11月25日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
Spark App自动化分析和故障诊断
CSDN大数据
7+阅读 · 2017年6月22日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Adversarial Metric Attack for Person Re-identification
Arxiv
5+阅读 · 2018年6月12日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
Spark App自动化分析和故障诊断
CSDN大数据
7+阅读 · 2017年6月22日
相关论文
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Adversarial Metric Attack for Person Re-identification
Arxiv
5+阅读 · 2018年6月12日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
5+阅读 · 2017年7月23日
微信扫码咨询专知VIP会员