本文件给出了大数据批流融合计算技术要求,包括:系统架构、技术要求、扩展性要求、兼容性要 求等。本文件适用于批流融合计算系统的设计、开发和部署提供指导,为用户理解、采用和建设批流融合 计算技术提供支撑,为相应的产品和服务评估提供参考依据。

随着数据量的增长,分布式计算模式逐渐成为大数据处理和计算的主流架构。为了满足程序的健壮 性和实时性要求,设计出了许多分布式计算框架,以屏蔽底层复杂的任务划分和集群调度细节,其中最 常用的两种是批计算技术和流式计算技术,二者有着迥异的编程模型和编程接口,适用于不同的计算场景。批计算技术适合需要访问全套记录才能完成的计算工作,流计算技术很适合用来处理必须对变动或 峰值做出响应,并且关注一段时间内变化趋势的数据。在实际应用中,经常会遇到两种计算技术共同工作的情况。简单的将两种计算框架进行简单的叠加, 则需要在两个不同的引擎上实现相同的执行逻辑,还需要手工合并不同引擎的输出结果。如果需要更改 查询逻辑,两个系统也需要同时进行改动。这会极大地增加工程的开发和维护成本。因此,统一的批流 融合计算技术成为了大数据领域的重要发展趋势。

随着数据量的增长,分布式计算模式逐渐成为数据中心的主流架构。为了满 足用户程序的健壮性和实时性要求,人们设计出了许多分布式计算框架,以屏蔽 底层复杂的任务划分和集群调度细节,其中通用的两种被称作批处理框架和流式 计算框架。它们有着迥异的编程模型和编程接口,适用于不同的计算场景。1. 批处理:

1)批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数 和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的 集合。这些操作要求在计算进行过程中数据维持自己的状态。2)全量计算,需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接在持久存储设备中处理数据集,或首先将数据集载入内存,批处理系统 在设计过程中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应 对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。3)一般是通过主动请求出发,较难对上游变化进行及时响应。4)大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较 高的场合。

2. 流式计算:

1)流式计算可以处理几乎无限量的数据,但同一时间只能处理一条或很少量 的数据,不同记录间只维持最少量的状态。2)增量计算,对局部数据进行增量处理。3)可以支持事件触发,实时上游变化进行及时响应。4)流处理很适合用来处理必须对变动或峰值做出响应,并且关注一段时间内 变化趋势的数据。然而在实际应用中,经常会遇到两种框架共同工作的情况。之前解决的方法 是将两种或者更多的计算框架进行简单的叠加:批处理引擎用来进行定时的离线计 算,生成一些预查询的结果来加速查询过程;而流式计算引擎负责处理上次离线 计算以来新输入数据的预查询结果,保证查询的实时性。在这种情况下,开发者 需要在两个不同的引擎上实现相同的执行逻辑,还需要手工合并不同引擎的输出 结果。假若需要更改查询逻辑,两套代码也需要同时进行改动。这会极大地增加 工程的开发和维护成本。因此,统一融合的计算技术成为了大数据领域一个很重要的发展趋势,同时 学术界和产业界在这方面已经有大量的科研和探索。目前业界方面已经出现批流 统一的大数据处理引擎正在逐步替换上一代垂直领域的大数据处理引擎。

**融合的计算技术价值在于: **

1)多:统一一套引擎完成更多计算模型,批流算子相互复用,增强批+流功 能丰富度;批流插件相互复用,增强上下游存储多样化。2)快:利用流式框架处理新型设计优化批性能,例如数据不落地,DAG 流水 线等设计,为批处理提供性能实时优化,极大提升批执行速度。3)好:批流统一模型,更好支持当前大数据处理日益普遍的实时+离线融合 场景,例如日常实时作业以流式运行,追数据自动切换为批处理完成。一套代码, 两种模式,可以无缝切换,在资源和体验之间平衡。4)省:批流统一模型,降低机器成本、计算成本、学习成本、维护成本,企 业大数据计算业务开支降低支出。

成为VIP会员查看完整内容
21

相关内容

《绿色数据中心评价规范》国家标准意见稿
专知会员服务
35+阅读 · 2022年9月21日
《信息安全技术大数据服务安全能力要求》国家标准
专知会员服务
35+阅读 · 2022年8月30日
《政务信息系统基本要求》国家标准意见稿
专知会员服务
24+阅读 · 2022年6月18日
《信息安全技术 云计算服务安全指南》国家标准意见稿
专知会员服务
31+阅读 · 2022年4月14日
《信息安全技术边缘计算安全技术要求》国家标准意见稿
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月1日
Arxiv
0+阅读 · 2022年10月31日
已删除
Arxiv
32+阅读 · 2020年3月23日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员