继土地、劳动力、资本、技术之后,数据已经成为第五大生产要素,数据越来越重要了。随着企业数据量爆发式增长,5G 和 AI 深入应用和快速创新,也让数据库技术不停向前发展。在这样的契机下,CSDN 在一年一度重磅的 1024 程序员节大会上、以及新一期的《程序员》杂志中,都重点探讨了新数据库时代的话题和内容。
业界意识到,出现了几十年的传统关系型数据库,已经无法满足现代非结构化数据管理、实时性分析、快速扩展等等新需求。也因此,数据仓库和数据湖应运而生。不过,在企业中,往往是数据仓库、数据湖,多套系统共存,运维复杂度之外,数据延迟仍然存在。而湖仓一体提出了兼具统一数据存储和数据处理的概念,成为了技术界目前一个重要的发展方向。
近日,CSDN 专访了数据智能服务商滴普科技 FastData 产品线总裁杨磊。滴普科技推出的云原生数据智能服务平台 FastData,就是服务于企业建立流批一体和湖仓一体的新一代数据存储计算平台和数据科学分析平台。通过采访,让我们窥见湖仓一体的一线技术厂商对于数据管理应用与发展的真知灼见。
湖仓一体的前世今生
作为数据平台厂商,在杨磊看来,现在数据的体量已经足够大,大规模数据统一实时处理的需求愈加被重视,是湖仓一体被广泛关注的主要原因。另一个促成湖仓一体发展的,是 AI 机器学习的大规模普及,各行各业都急需用机器学习算法支撑数据的管理与创新。因此,兼具了数仓 (Data Warehouse) 和数据湖 (Data Lakes) 两者特性和性价比的湖仓一体也就应运而生了。
杨磊对 CSDN 介绍,在中国,高端制造业、零售业等数据密集型的行业,五六年前使用商业化的大数据平台如 CDH 等,现在这些行业也是湖仓一体最早和最快的接受者。但同时,也仍有很多企业用户的数据管理应用成熟度不高,对于湖仓一体仍持观望态度。
湖仓一体的应用,也并不是从零开始。头部客户对数据的管理应用,往往都会经历 Oracle、SAP、CDH 等阶段,数据仓库和大数据平台甚至长期(烟囱式)并存。现在,企业可以用湖仓一体取代 CDH,或是在 CDH 之外用湖仓一体升级/替换已有的多个传统数据仓库。
滴普科技 FastData,“全栈式”的数据智能平台
为了满足上述的数据管理需求,杨磊表示,湖仓一体的技术核心,第一就是实现统一的存储与元数据管理,及表引擎统一,以保证湖仓中的数据统一和读写的一致性。同样重要的是多样化的计算引擎,例如流批交互分析引擎、机器学习计算引擎等。另外,湖仓一体的服务,需要实现用户的统一使用体验,改变以往各种数据分析处理使用不同语言(以往 Python、Java 甚至更多语言并存)的技术复杂性,以及实现图形化界面等。
滴普科技 FastData 核心引擎与全栈式数据智能平台
而滴普科技推出的 FastData,希望帮助用户搭建企业级流批一体、湖仓一体的数据智能平台。为了实现“全栈式”的数据平台级服务,滴普科技核心研发了流批一体数据分析处理引擎 DLink、数据集成服务DCT、数据智能开发平台 DataFacts,用于企业数据科学分析、可视化建模、机器学习等的数据科学分析平台 DataSense,以及数据资产管理和运营平台 DXP。在五大核心技术能力之下,滴普科技采用存算分离架构,实现数据的全链路监测分析。最上层,则可以与 BI、AI 应用厂商对接,真正实现湖仓一体的数据智能应用。
滴普科技湖仓一体架构中数据流转架构的清晰逻辑
FastData 湖仓一体是滴普科技结合自身产品优势,在数据管理领域中提出的一种全新架构范例。产品采用 Kappa Plus 架构可实现一套架构同时满足流和批的处理,解决企业技术架构和数据架构固有的成本问题和复杂问题,加强业务与技术团队更高效的协作和创新。
在采访中,杨磊以滴普科技的零售行业客户百丽国际为例,介绍了零售数据密集型企业应用湖仓一体后的真实收益。以往百丽国际已有七大数据仓库,数据分布在CDH/DB2/MySQL/Oracle等 OLAP 数据库中,数据量超过 3PB,全量计算需要耗时数天。滴普科技为百丽国际完成核心大数据组件升级,从原来的 Hive、Spark、离线计算等技术,升级为FastData-DLink、FastData-DCT、FastData-DataFacts,整合原有 7 个数仓平台形成湖仓一体实时架构。统一数仓后,分析时间从 T+X 缩短为 T+0,实现门店级到区域级到集团级实时数据分析能力,提升业务响应的敏锐度,与此同时,也节约大量传统数仓的技术运维成本。
百丽国际流批一体、湖仓一体架构解决方案
据介绍,滴普科技已服务 100 余家大中型企业,包括百丽国际、新华联、广州城投、九洲电器、重庆机电、大横琴泛旅游、乖宝宠物、科伦药业、百果园、OPPO、VIVO 等,并与深圳市龙华区、佛山市顺德区、攀枝花东区等政府单位合作,以数据智能推动各行业数字化转型升级。
投身技术生态,数据智能的未来走向融合
虽然滴普科技将自身定位为数据智能平台级厂商,在大数据相关的各类业务场景中,提升数据平台构建效率降低建设成本,解决企业数据的存、通、治、用等问题。不过杨磊向 CSDN 表示,滴普科技 FastData 希望是云中立、一站式数据智能平台,底层可以与各家基础设施和云厂商集成,上层则与 BI、AI 厂商,以及行业应用厂商对接。滴普科技希望联合数据生态里的厂商,共同为先进制造、生物制药、能源出行、政务双碳、金融科技、消费流通等行业客户提供数据基础设施平台+应用+服务在内的一站式数据智能解决方案。
滴普科技还加入了中国信息技术应用创新工作委员会、中国信通院大数据技术标准推进委员会、云计算标准和开源推进委员会、数据库应用创新实验室,积极参与产业调研、行业标准研究与建设等工作;联合国内多家企业推进信通院云计算开放应用架构、SQL 审核服务能力、数据资产管理、数据服务管理(ESM)、云原生数据湖、零信任云计算安全标准、数据流程管理(BPM)技术标准或白皮书建设,利用自身行业沉淀和技术创新能力,推动行业发展。
在 2021 年底,中国信通院第十三批数据库产品基础能力、性能和稳定性评审结果公布,滴普科技 DEEPEXI FastData for DLink V2.0 通过分布式分析型数据库基础能力评测。杨磊也向 CSDN 透露,滴普科技下一步即将开源 DCT 和 DataSense,同时也在全面和 Iceberg/Trino 社区深度合作。
数据库领域的技术栈庞杂,运维和部署成本高,杨磊认为,未来数据智能技术将走向互相融合,滴普科技将继续拥抱开源生态,以技术实力去提升竞争力。