课程简介:
本课程首先介绍了 Flink 的开发/调试方法,并结合示例介绍了 DataSet 与 DataStream 的使用方法,Flink 的四层执行图。接着介绍了流式计算中需要解决的典型问题,如事件时间、乱序问题、窗口操作、Join 实现,以及 Flink 如何解决这些问题。然后分析了 Flink 的状态管理模型以及精典的 Asynchronous Barrier Snapshotting。最后介绍了如何诊断与优化 Flink 应用,并介绍了一个 Flink 应用案例。
课程大纲:
第一课:Flink 入门
1、Flink 开发/调试环境
2、DataSet 与 DataStream
3、几种 Key 选择方法性能比较
4、Accumulator 与 Counter
第二课:Flink 架构
1、Flink 架构
2、Flink 资源分配
3、Flink 任务调度
4、Chaining
第三课:Flink 流式计算之数据处理
1、Transformation
2、Join
3、Process Function
4、Async I/O
第四课:Flink 流式计算之时间
1、处理时间、事件时间与摄取时间
2、Watermark
3、如何处理乱序
4、Side output
第五课:Flink 流式计算之窗口
1、Tumbling Window
2、Sliding Window
3、Session Window
4、Global Window
第六课:Flink 流式计算之状态与容错
1、几种典型的状态类型
2、Asynchronous Barrier Snapshot
3、Queryable State
4、Flink 状态使用较佳实践
第七课:Flink Batch
1、Shuffle 机制
2、Iteration
3、自定义 Connector
4、容错机制
第八课:Flink Table API & SQL
1、静态表与动态表
2、连续查询中的 Join
3、UDF / UDAF / UDTF
4、与 Hive 集成
第九课:Flink 应用诊断与优化
1、背压问题发现与解决
2、内存调优
3、如何设计并发度
4、正确使用函数注解优化性能
第十课:Flink 实战演练
授课时间:
本期课程将于7月20日开始。课程持续时间大约为12周。
授课对象:
对 Flink 或者相关大数据开发感兴趣的工程师、架构师以及产品经理。较好有 Java 或 Scala 编程基础
讲师简介:
郭俊(Jason),就职某大型互联网公司,多年Kafka和Hadoop及Spark研究、应用及调优经验。现从事大数据平台(集群规模两万加)优化工作。
个人博客: http://www.jasongj.com
微信公众号: 大数据架构
点击下方二维码或阅读原文报名课程: