数据洪流时代,企业如何释放数据价值才能步入发展“快车道”?| Q推荐

2022 年 7 月 15 日 InfoQ


日前,国内市场调查和咨询公司艾瑞咨询发布《2022 年中国数智融合发展洞察》报告。作为国内最新的数智融合研究成果,该报告聚焦企业数智融合,围绕中国数智融合发展背景、企业数智融合挑战与应对、数智融合典型实践等进行了深入分析,结论令人深思。

报告显示,华为云数智融合解决方案综合优势突出,凭借其独家创新架构,为客户进一步降本增效,在行业技术创新上持续领跑。通过 DataArts 和 ModelArts 的融合,打通了大数据和人工智能,兼顾成本与性能,实现统一管理、一数多用,同时实现敏捷用数,全流程自动化与智能化。

1 中国数智融合发展的典型特征

据《2022 年中国数智融合发展洞察》报告指出,随着数字化不断推进,全球数据量以超过 59% 的年增长率快速增长,中国的数据量增速比全球更快。其中,80% 是非结构化和半结构化数据。并且,在企业内部,非结构化数据增速远高于结构化数据,非结构化数据占比也越来越高。值得关注的是,数据多源异构成为常态,以数据库种类为例,除传统关系型数据库外,还诞生了更适应物联网场景的时序数据库、更适应知识图谱应用的图数据库等。


同时,报告还指出,在大数据行业,企业仍然存在数据壁垒突出、碎片化问题严重等瓶颈制约,大数据容量大、类型多、速度快、精度准和价值高的 5V 特性未能得到充分释放。

此外,云原生领域,从微服务走向 Serverless,底层基础设施被“屏蔽”,开发者只需专注于编写应用程序的业务逻辑,技术人员更贴近业务。为推进 AI 应用的高质量落地,开展针对性的数据治理工作成为企业迫切需求。通过抽象解耦、水平扩展、自动化与智能化实现去过程化,企业业务需求可得到实时响应,进一步实现敏捷和创新。

简言之,整个经济社会源源不断地产生数据,但是爆炸式增长的数据并未发挥其真正价值,也未有效驱动企业业务增长。

2 横亘在企业面前的数智融合四大挑战

原因何在?《2022 年中国数智融合发展洞察》报告揭露出问题所在。

第一,传统架构下,数据量、存储成本和计算效率不可兼得。如果不考虑数据量和数据类型,那么传统数仓或单体 DBMS 已足够;不考虑计算效率,那么基于 HDFS 或公有云的对象存储即可满足。如果不考虑存储成本,企业可使用 NVM(非易失性内存)。

其次,数仓、数据湖和 AI 数据形成新的数据孤岛。经过多年发展,数据分析和 AI 分析出现面向不同任务的专用数据系统。基于对象存储的大数据系统负责处理海量数据和非结构化数据,数仓系统处理结构化数据,AI 系统中的数据一般存储在本地。这些专用系统“各自为政”,要么无法打通形成新的数据孤岛,要么不同业务的开发要迁移数据,实施过程漫长,影响业务快速发展。

第三,虽然开源产品非常丰富,但是开发运维难。即使有大量开源产品,但是企业自行搭建数智平台依然困难重重。比如在运维上,很多企业主要依靠人工运维,不仅效率低,而且成本高,无法很好应对宕机事故。再比如体验上,因产品自产自用,复用率低,技术团队只保障基础需求,对降低业务人员使用难度、提升使用体验的附加性需求响应度低。

最后,数据准备工作既复杂,又低效。在利用数据过程中,数据质量至关重要,低质量数据效用非常低。从数据生成、采集到应用的长生命周期,数据准备工作异常耗时。据 Cognilytica 调研显示,机器学习中,超过 80% 的时间被用于数据准备。

这些挑战犹如企业面前的“拦路虎”,阻碍着企业充分利用数据。只有那些跨越“拦路虎”的企业才能继续前行,释放数据价值,步入发展快车道。

3 如何“变身”数智融合的佼佼者

而兴盛优选则是其代表之一。作为一家互联网新零售企业,兴盛优选无疑是过去数年国内互联网创业中的“明星公司”。它主要定位于解决家庭消费者的日常需求,包括蔬菜水果、肉禽水产、米面粮油、日用百货等商品,以 “预售 + 自提” 模式为用户提供服务。目前,它已是估值超过 100 亿美金的独角兽企业。在兴盛优选总部,每一层楼都安装有一块约 60 寸的长方形屏幕,淡蓝色地图背景上滚动着兴盛优选当日全国订单数,数字实时更新。

对兴盛优选而言,数据已经成为其业务发展的底座,不仅与业务深度融合,而且致力于为业务发展创造更大价值。

据悉,该公司总数据量已达 PB 级别,日新增数据量达到 TB 级,其业务每个链路均有数据参与其中,实现相应业务流程的迭代和增强。

业务快速发展中,兴盛优选在数据上也遇到很大挑战。与很多企业一样,它主要基于开源大数据组件进行搭建,但是基础设施的稳定性却跟不上业务发展速度,于是面临两大难题:其一,机器资源采购周期较长,如果周期内机器不足以支撑业务发展,那么就会出现大数据组件运行资源缺乏导致任务延时甚至失败的情况;其二,大数据涉及的开源组件比较多,而业务发展急需可靠的集群支撑,这就需要专业人才。在兴盛优选总部长沙,找到维护庞大集群相应组件的专业人才不仅需要时间,而且会带来不小的人力成本。

兴盛优选基础数据平台部负责人补充道:“相比 OBS 的纠删码存储机制而言,HDFS 的副本机制成本高出不少。对创业公司而言,能省每一笔可以节省的钱,并将这些钱花在该花的地方,这是每个技术架构师都应该要具备的思维。”

基于性能和成本考量后,兴盛优选决定采用华为云数智融合解决方案,将原来基于开源组件搭建的数据平台,迁移到华为云 GaussDB 集群,提升数据分析效能,从根本上解决了业务数据不一致,实时业务不稳定的问题。

在他看来,相比 x86 而言,基于 ARM 系列硬件的华为云集群服务有非常突出的成本优势。他表示:“当前,我们整个大数据集群都是运行在华为云的 ARM 系列集群上,服务比较稳定,基本没什么太大问题。即使上线后这段时间,也只出现过一次小规模故障,集群中有几台机器出现过断电重启的情况”。

通过华为云上云团队驻场支持协助,兴盛优选用时 1 个月即完成大部分任务从线下迁移到线上,大大降低了运维成本。

如果说兴盛优选是互联网新零售中的“明星”,那么 T3 出行则是出行领域释放数据价值的“佼佼者”。据悉,T3 出行是由中国一汽、东风汽车、长安汽车三大央企联合多方知名企业签订合资协议正式运营的出行企业,截止 2022 年 7 月,T3 出行登陆全国 91 个城市,累计注册用户超 1 亿,单日订单峰值破 300 万单,订单规模及日活用户跃居 B2C 出行领域第一。

于它而言,面临三大痛点:一是传统数仓技术难以解决“长尾支付”带来的问题,二是平台需要更灵活的架构支持像 AI 自动验证司机身份、识别司机不安全行为等新应用,三是平台需要更稳定可靠的架构,支撑流量快速增长。

为满足业务发展,T3 出行选择华为云数智融合产品,将多套集群架构优化至湖仓一体的存算分离架构,同时支撑数据分析的 BI 和数据智能的 AI 场景,不仅使 TCO 降低 20% 以上,更解决了出行场景下“长尾支付”系统更新慢的难题,保证业务 7x24 小时稳定运行。

除了兴盛优选、T3 出行,梦饷集团通过采用华为云数智融合解决方案实现 TCO 下降 30%,实时分析能力提升 50%。华为云一体化解决方案为梦饷集团带来“资源高效”、“应用敏捷”、“业务智能”、“安全可信”等多方面的智能升级。基于此,在 5 月 26 日举办的数博会上,梦饷集团创新实践入选“十佳大数据案例”,华为云数智融合平台也荣获“2022 数博会领先科技成果优秀项目奖”,充分证明了业界对华为云数据领域技术创新的认可。

4 独家创新架构 华为云助力企业释放数据价值

为什么不同行业的不同企业都青睐华为云数智融合平台?简言之,华为云为企业在云上打造了统一的数据底座,实现数据和智能的融合,为企业发展提供新引擎。


具体说来,三层分离。华为云数智融合平台通过存储 - 缓存 - 内存三层分离,兼顾存储成本和计算性能,让性价比更高,计算更灵活。

其次,统一了元数据。打破原有大数据、数仓、AI 的数据孤岛,将数据目录、数据权限、事务一致性等能力统一到一个中心点,实现一数多用,让一份数据在多个引擎间自由流动共享,避免数据来回迁移。

第三,DataOps 和 MLOps 融合,让企业不同部门、不同角色可以以擅长的方式敏捷用数。让数据工程师使用熟悉的工具来调用 AI 能力,使大数据开发和 AI 开发协同起来。例如,让数据工程师用 SQL、Python 交互式 Notebook 做数据清洗、特征工程、模型训练,几行代码就能直接调用平台内预置的 AI 算法,使数据和模型开发周期从天级降为分钟级。

最后,全流程的自动化和智能化,让繁重的数据治理变得简单。华为云数智融合平台将人工智能算法模型应用到数据集成、数据质量、数据建模、数据安全、数据访问控制、数据关联、数据关系和数据洞察的数据全生命周期治理。

简言之,华为云数智融合 DataArts,用 AI 技术提升数据治理效率,即 AI for Data;用高质量的数据提升模型精度,即 Data for AI,让企业决策更精准。

5 写在最后

大数据与人工智能的融合,正成为新的技术驱动力。数智融合可以进一步深入企业业务,加速业务迭代和产品创新,推动企业数字化发展提质增效,步入高质量发展阶段。

多云时代下,“H(华为云)+X”已经成为越来越多企业的主流选择。据悉,在互联网领域,80% 的中国 Top50 互联网企业选择华为云。之所以受更多企业青睐,是因为华为云提出“一切皆服务”,把基础设施、技术以及经验云化、服务化,帮助千行百业的客户容易上云、方便上云、用好云。同时,华为云深耕行业,将华为与伙伴、客户的合作创新以及数字化转型经验沉淀为云服务,已陆续开放了 50 多个应用场景,提供超过 2 万个 API 服务,让更多企业就不必重复“造轮子”,通过云服务即获得全行业最优秀的数字化经验。

登录查看更多
0

相关内容

华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
47+阅读 · 2022年8月20日
244页pdf!《2022 中国云计算生态蓝皮书》发布
专知会员服务
108+阅读 · 2022年8月3日
2022年中国数智融合发展洞察(附下载)
专知会员服务
26+阅读 · 2022年7月18日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
2021年中国人工智能市场发展现状
专知会员服务
123+阅读 · 2021年10月29日
专知会员服务
63+阅读 · 2021年7月1日
数据库发展研究报告(2021年)
专知会员服务
47+阅读 · 2021年6月29日
中国数据要素市场发展报告(2020~2021),65页pdf
专知会员服务
140+阅读 · 2021年5月11日
多样性算力技术愿景白皮书
专知会员服务
82+阅读 · 2021年4月29日
一场数据架构变革正在来临 | Q推荐
InfoQ
0+阅读 · 2021年12月20日
2021年中国人工智能市场发展现状
专知
1+阅读 · 2021年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2010年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
57+阅读 · 2021年5月3日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
相关VIP内容
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
47+阅读 · 2022年8月20日
244页pdf!《2022 中国云计算生态蓝皮书》发布
专知会员服务
108+阅读 · 2022年8月3日
2022年中国数智融合发展洞察(附下载)
专知会员服务
26+阅读 · 2022年7月18日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
2021年中国人工智能市场发展现状
专知会员服务
123+阅读 · 2021年10月29日
专知会员服务
63+阅读 · 2021年7月1日
数据库发展研究报告(2021年)
专知会员服务
47+阅读 · 2021年6月29日
中国数据要素市场发展报告(2020~2021),65页pdf
专知会员服务
140+阅读 · 2021年5月11日
多样性算力技术愿景白皮书
专知会员服务
82+阅读 · 2021年4月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员