阿里新一代实时计算引擎:Blink

2018 年 3 月 26 日 InfoQ

实时计算这个概念是与离线计算相伴相生的,以 Hadoop为例, Hadoop 批处理 job 的执行时间往往需要几十分钟到几个小时(不同的数据量),所以一般数据的处理是按照时间区间处理的,这叫离线计算,但是,从业务场景上来说,离线计算不能满足所有业务的需求。

流计算的产生即来源于对于上述数据加工时效性的严苛需求:数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。在许多的业务场景上,比如在实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,以银行的交易系统为例,可靠性要达到 4个 9,甚至 5个 9的地步,而流计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2015 年是流计算百花齐放的时代,各个流计算框架层出不穷。Storm, JStorm, Heron, Flink, Spark Streaming, Google Dataflow (后来的 Beam) 等等。其中 Flink 的一致性语义和最接近 Dataflow 模型的开源实现,使其成为流计算框架中最耀眼的一颗。也许这也是阿里看中 Flink的原因,并决心投入重金去研究基于 Flink的 Blink框架。

如果问是基于什么具体的原因使得阿里选择了 Flink框架,阿里巴巴的高级技术专家大沙曾言,他们是在 2015年开始调研新一代流计算引擎的,当时的目标就是要设计一款低延迟、exactly once、流和批统一的,能够支撑足够大体量的复杂计算的引擎。

Spark streaming的本质还是一款基于 microbatch计算的引擎。这种引擎一个天生的缺点就是每个 microbatch的调度开销比较大。Kafka streaming是从一个日志系统做起来的,它的设计目标是足够轻量,足够简洁易用。这一点很难满足对大体量的复杂计算的需求。Storm是一个没有批处理能力的数据流处理器,除此之外 Storm只提供了非常底层的 API,用户需要自己实现很多复杂的逻辑。

有别于 FLink,Blink主要在以下几个方面做了改进:

  • 优化了集群调度策略使得 Blink能够更好更合理地利用集群资源;

  • 优化了 checkpoint机制,使得 Blink能够很高效地处理拥有很大状态的 job;

  • 优化了 failover的策略,使得 job在异常的时候能够更快恢复,从而对业务延迟造成更少的影响;

  • 设计了异步算子,使得 Blink能够在即使被读取外部数据阻塞的同时还能继续处理其他 event,从而获得整体非常高的吞吐率。

以前,MySQL+Linux+PHP可以免费的构建一个小型的网站,也许不久,类似 Flume + Kafka + Blink,也会成为实时流计算一套完整的解决方案。实时计算必然是未来的主流趋势。

如果你也对实时计算感兴趣,请关注 2018年 4月 23日到 24日,我们在北京国际会议中心举办的 QCon深度培训。在会上,阿里巴巴的高级技术专家王绍翾和邓小勇将为大家带来 阿里巴巴 Blink流计算平台介绍与实践,详细的介绍 Blink的前世今生,现在报名立享 8折优惠,点击“阅读原文”即可了解更多详情。或添加 chenxi988625咨询。

登录查看更多
3

相关内容

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似。
斯坦福2020硬课《分布式算法与优化》
专知会员服务
117+阅读 · 2020年5月6日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
35+阅读 · 2020年4月26日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
105+阅读 · 2020年1月2日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
DataCanvas周晓凌:如何为用户提供最佳体验的实时推荐系统
DataCanvas大数据云平台
5+阅读 · 2018年11月12日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
【AI说】揭秘京东实时数据仓库背后的神秘力量—JDQ
Arxiv
34+阅读 · 2019年11月7日
Arxiv
3+阅读 · 2017年12月14日
Arxiv
4+阅读 · 2017年11月14日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
DataCanvas周晓凌:如何为用户提供最佳体验的实时推荐系统
DataCanvas大数据云平台
5+阅读 · 2018年11月12日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
【AI说】揭秘京东实时数据仓库背后的神秘力量—JDQ
Top
微信扫码咨询专知VIP会员