还在纠结数据仓库和数据湖的二选一?滴普科技FastData教你两手兼得

2022 年 2 月 8 日 CSDN

近年来,信息技术迅猛发展,伴随着云计算、大数据、人工智能等技术的快速发展和传统产业的数字化转型,数据量呈现几何级增长。根据市场研究资料显示,全球数据总量将从 2016 年的 16.1ZB 增长到 2025 年的 175ZB ,十年内将有 10 倍的增长。面对如此海量的数据,如何通过智能化手段将数据有效转化,成为企业新的挑战。

基于这样的需求,完全纯数据仓库不适宜半 / 非结构化数据的处理;而单纯的数据湖虽然适合存储数据,但它们不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性。对此不少企业都曾纠结于数据湖和数据仓库的二选一,那么是否能有一种方案能将二者的优势融合,将这类“选择题”变成令人舒服的“肯定题”?如今这类肯定题已经出现:一种结合数据湖和数据仓库优势的方案诞生了——湖仓一体化。它实现了数据湖和数据仓库之间的无缝流转,打通了数据存储和计算的不同的层面,兼顾数据湖的灵活性和数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本。


鱼和熊掌两手抓——“全栈式”数据平台 FastData


作为数据智能服务商,滴普科技围绕数据智能技术,构建了新一代云原生数据智能平台 FastData,它服务于企业建立流批一体和湖仓一体的数据存储计算平台和数据科学分析平台。相较于传统的数仓和数据湖产品,FastData 具备三大优势:

  1. 低成本:FastData 可以为企业降低底层大数据平台的建设和运维成本,减轻企业对于整个技术体系的依赖程度,相比原经典的大数据平台而言,可以节省 40%—50% 的成本。

  2. 高性能:FastData 在满足低成本的同时,仍具备处理 PB 级结构化、半结构化以及非结构化的数据,在实时流计算的场景可以实现秒级的同步和计算,可以满足大型企业实时或准实时的数据处理要求。

  3. 易使用:FastData 打造了一个 IT 工程师、数据工程师和数据科学家能够一体化操作的数据智能平台,进行数据的智能化运营。

FastData 通过湖仓一体,同时吸收了数据仓库和数据湖的优势,可以解决多模数据管理复杂的问题,实现快速分析应用与数据价值深度的发掘,加速业务价值创新,相信客户面对这样“鱼和熊掌兼得”的产品很难不心动。

同时,基于高性能分布式对象存储基础设施,FastData 采用云原生、存算分离架构,为了实现“全栈式”的数据平台级服务,滴普科技核心研发了实时PB级数据引擎 DLink、数据智能开发平台 DataFacts,用于企业数据科学分析、可视化建模、机器学习等的数据科学分析平台 DataSense,以及数据资产管理和运营平台 DXP。

 

FastData 的底气何来,揭秘 DLink 数据引擎


我们以 FastData 中的“PB 级大心脏” DLink 为例,DLink 的核心理念就是“统一”,它基于 Iceberg、Flink 和 Trino 技术栈,提供多种数据类型的统一存储能力,支持高质量的流批一体数据整合,其特点包括海量数据存储处理、多样数据格式与来源、新数据高速产出、数据解释可变性高、数据遵循流畅一致性强、可供消费数据波动性高等。

DLink 融合了实时数仓和数据湖服务,采用存算分离架构,弹性扩展、高并发、低延时,支持 PB 级多模数据存储与处理,无缝连接大数据生态,提供一站式的数据探索(汲取)、实时开发、数据分析和数据科学(机器学习),满足 BI、实时看板等应用需求。

可见在未来数据智能赛道方向,凭借 DLink 如此强大的数据处理、探索和开发能力,将为客户的发展带来极大的技术支持。介绍了这么多,光说不练假把式,当下 DLink 已经在为企业服务了吗?没错,而且应用领域极为广泛。我们接下来就看看 DLink 在企业中的实战能力吧!


数据智能如何驱动千行万业数据转型


想了解 DLink 的实战能力,那我们就以某知名服饰集团的实时报表分析查询为例。某知名服饰集团旗下拥有多个品牌,线下门店数量总计 2100 多家,但在数字化升级中面临着亟需升级的地方:

  1. 客户需要通过大屏、移动端 BI 等展示提供实时数据,来监测数据的变化;

  2. 业务平台需要实时业务产生的标签,进行数据查看及分析;

  3. 需要给数据热点、云客服、业务监控预警、业务辅助决策等场景提供数据服务。

而该项目的技术动因主要有:1.公司凌晨大批量启动调度任务,数据仓库、数据平台存储资源与其他系统公用,随着数据量及相关报表数量增加,并发调度压力越来越大;2.相关报表数据计算错误无法及时发现,影响相关决策。

对此,实时 PB 级数据引擎 DLink 的应对方案如下:

1、DCT 实时从 Oracle 抽取数据存入 ODS层, topic=kct03

2、DLink 将 ODS层 数据经过初步计算写入 DWD-数仓明细层

3、DLink 将 DWD数仓明细层 数据经过计算写入 DWS-数仓汇总层

4、最后通过 Java 应用把数据格式转换成应用层需要的格式写入 DM

5、应用层从 DM 直接取数据展

正是有赖于 DLink 在实时计算和即席分析能力方面的支持,该实时报表查询项目数据时效性得到大幅提升:完全实现所有数据服务由 T+1 时效迈向 T+0 秒级服务;此外它满足实时业务场景需求,实现精细化运营,增加数据价值:实现实时分析、实时推荐、实时检索等场景;同时它也减轻了批量处理压力:相关业务平台和报表的实时计算的标签可迁移至实时平台进行计算减轻了批量数据处理压力,并且能将计算结果快速反应到业务平台。

此外,滴普的产品还应用在了更多行业领域。据介绍,目前滴普科技已服务 100 余家企业与用户,其中包括百丽国际、新华联、广州城投、九洲电器、重庆机电、大横琴泛旅游、乖宝宠物、科伦药业、百果园、OPPO、VIVO 等。除了与企业合作以外,滴普科技也与深圳市龙华区、佛山市顺德区、攀枝花东区等政府单位合作,以数据智能推动各行业的数字化转型升级。


打造 DEEPNOVA 社区,让技术繁荣生长

 

了解了这么多 FastData 的相关技术和湖仓一体的真实收益,那么开发者如何更快投身湖仓一体的技术浪潮呢?进行更进一步的交流呢?开发者社区是重要的新技术生长平台,未来数据智能技术将走向互相融合,所以滴普科技拥抱开源生态之外,也在致力于打造 DEEPNOVA 开发者社区。

DEEPNOVA 开发者社区是面向技术开发者的交流学习、生态共创平台,目的是促进圈层交流,学习互助,开拓技术视野;建立技术生态,合作共赢。DEEPNOVA 是由 DEEPEXI+SUPERNOVA 组合而成,包含了滴普科技的“建社心愿”:滴普科技为技术开发者打造的一颗超新星。俗话说得好,一个人可以走很快,但一群人可以走更远。在 DEEPNOVA,这里已经聚集了一群志同道合的技术开发者,我们正等待着作为超新星的你加入。

另外在 2022 年, DEEPNOVA 社区联合 CSDN 共同推出的“DEEPNOVA 技术荟系列公开课”,第一期将于 3 月 2 日周三 19:30-20:30 开播,直播主题为“数据智能技术前沿与挑战”,我们邀请到了杨磊大神(滴普科技 FastData 产品线总裁)作为此次的直播嘉宾,探讨如何以开放的 FastData 更好地迎接高密度数据场景的新挑战,各位技术爱好者们,咱们到时不见不散哦~


DEEPNOVA 技术荟系列公开课第一期


直播时间:2022 年 3 月 2 日 19:30-20:30

直播主题:数据智能技术前沿与挑战——以开放心态迎接高密度数据场景新挑战

内容大纲: 

  • 厘清数据管理应用技术趋势与面临的行业挑战

  • 分享滴普对于行业挑战的认知与理解

  • 运用开放的 FastData 解决行业问题及实践分享

分享嘉宾滴普科技 FastData 产品线总裁 杨磊

嘉宾介绍:杨磊,北京滴普科技有限公司 FastData 产品线总裁,中国信息协会大数据分会常务理事。资深技术专家,在操作系统、分布式软件体系、编译等领域有突出贡献,曾任大型集团企业超大规模分布式架构的核心架构师。

在华为深耕 12 年,其中 10 年为技术岗,曾任操作系统内核专家、分布式系统平台核心架构师,带领核心技术团队实现在超大规模压力下的系统稳定和扩展能力。两年担任海外 marketing 总工角色,作为技术负责人拓展海外市场,突破市场制高点。

2018 年,联合创立数据智能服务商滴普科技,基于云原生架构,打造新一代数据智能平台 FastData。FastData 是面向数据智能场景的新一代 PB 级实时数据产品,帮助企业建立流批一体和湖仓一体的新一代数据存储计算平台和数据科学分析平台。不断突破创新,已带领团队成功服务超 100 家大中型客户,覆盖先进制造、生物医药、能源出行、政务双碳、金融科技、消费流通等领域。

扫描下方二维码或点击【阅读原文

立即报名公开课!

登录查看更多
1

相关内容

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。 数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。其特征在于面向主题、集成性、稳定性和时变性。
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
2021年中国电商智能客服行业概览
专知会员服务
35+阅读 · 2021年11月7日
专知会员服务
40+阅读 · 2021年7月27日
专知会员服务
48+阅读 · 2021年5月24日
专知会员服务
86+阅读 · 2021年3月31日
专知会员服务
28+阅读 · 2021年2月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
湖仓一体会成为企业的必选项吗?| Q推荐
从托管到原生,MPP架构数据仓库的云原生实践
阿里技术
1+阅读 · 2022年1月21日
从阿里核心场景看实时数仓的发展趋势
阿里技术
0+阅读 · 2022年1月11日
详细对比后,我建议这样选择云数据仓库
InfoQ
0+阅读 · 2021年12月19日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Tikhonov Regularization of Circle-Valued Signals
Arxiv
1+阅读 · 2022年4月20日
Estimation of the Shapley value by ergodic sampling
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关VIP内容
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
2021年中国电商智能客服行业概览
专知会员服务
35+阅读 · 2021年11月7日
专知会员服务
40+阅读 · 2021年7月27日
专知会员服务
48+阅读 · 2021年5月24日
专知会员服务
86+阅读 · 2021年3月31日
专知会员服务
28+阅读 · 2021年2月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员