数据维度建模已消失

2022 年 9 月 8 日 CSDN

摘要:在过去,面对存储和计算成本过高的问题,维度数据建模出现,它基于类似星形的架构或雪花架构构建,维度围绕事实数据表,可以对计算和储存进行优化。如今,维度数据建模已经逐渐淡出大家的视野之中……

原文链接:

https://blog.devgenius.io/learn-from-googles-data-engineers-dimensional-data-modeling-is-dead-68f6c2cb3fb0

声明:本文为CSDN翻译,转载请注明来源。

作者 | DataExpert

译者 | 朱珂欣      责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

维度数据建模由数据仓库领域大师由Ralph Kimball在其 1996 年的著作中推广,作为一种在数据仓库中组织数据的方法,它以分析决策的需求出发构建模型,为分析需求服务。同时,维度数据建模还具备较好的大规模复杂查询的响应性能。
在过去,维度数据建模主要基于三个原因而存在:优化计算;按主题组织数据;优化存储。
过去,维度数据建模解决了重重问题
如果用当下的眼光重新审视维度建模在过去存在的原因,就会发现它的确能满足过去的需求。
  • 计算早期,存储成本很高。

在198 5 年,储存成本高达 90,000 美元。 在这样成本高昂的情况下,数据仓库组织数据的方式必须尽可能节约存储成本,同样的数据尽可能只存储一次。
  • 计算早期,计算成本很高。

在1985 年,最快的计算机以高达 3200 万美元的价格输出了 1.9 gigaflops 的计算能力。 时下,最快的计算机输出了超过 400 petaflops 的计算能力,即 20,000 倍以上的计算能力。 由此可见,当时计算面临需要优化的问题也同样重要。


面对存储和计算成本过高的问题,维度数据建模出现,它是基于类似星形架构或雪花架构构建,维度围绕事实数据表。 可以通过借助维度数据建模中的星型架构和雪花架构对各个数据域、各个业务过程进行严格的建模。
维度数据建模的好处就是:事实表包含物理索引且易于检索的值。检索成本更高的值存储在维度表中,检索时更加具有选择性,从而节省处理成本。

如今,维度数据建模逐渐消失在大众的视野之中

但是,在大数据时代,技术的发展日新月异发展,也在潜移默化中推动着存储和计算发生了改变。随着大环境的变化,维度数据建模的优点逐渐被削弱,缺点却被放大,以至于维度数据建模越来越少。

  • 存储几乎免费

如今,每月 1GB 的 AWS 云存储成本,仅仅只需要2美分。

相比较之下,维度数据建模将长表或宽表分解为星形或雪花模式的回报率很低。云存储以每年几美分的价值计算时,成本不再成为考虑因素,云存储也能更加适应大众的需求。

  • 计算成本低廉

伴随着云架构的出现,目前计算可以做到轻松扩展,并且请求其他资源以应用于长时间运行的查询变得容易,因此计算成本更加低廉。

  • 维度建模对于普通用户来说很难理解

对于数据工程师而言,可以查看并直观地理解数据建模,但对于普通数据消费者而言,会觉得它并不直观,也不易理解。

  • 尺寸模型的维护成本高昂

虽然近年来新的数据建模工具使集成变得更加容易,但如果每次向源表中添加新列时都不调整数据模型,会使用户通常无法使用新列。

未来,数据设计的发展方向在哪里

近来,数据湖和数据湖屋逐渐成为大家关注的焦点。数据湖能提供更好的最终用户体验,维护成本低廉,并且不需要额外的工程资源来构建。数据湖的主要好处是业务的可用性。

过去,分析师或商业智能工程师曾经需要解释复杂的数据模型以向业务交付价值。如今,通过数据湖可以将数据直接从源连接到最终用户。分析师和商业智能工程师可以专注于解决更有价值的问题,例如用于构建预测管道的工程功能。

数据湖最近的成功表明,计算和存储资源不再因略微减少而受益,但可用性的提高已被重新发现为数据生态系统的重大整体提升。并且,曾经在数据维度模型上的维护成本,可以用于为业务创造快速价值。

总的来说,在过去维度数据建模让数据规范化和执行数据规范化,让数据更加井井有条。但是,随着目前很多团队在数据湖和维度模型的成本后,维度数据建模越来越少,逐渐淡出大家的视野之中。维度数据建模真的不再具备实践价值了吗?我们把答案交给时间。

— 推荐阅读 —
   
   
     
iPhone 14 系列来了!能动的“药丸屏”,Plus 型号回归,最高售价 13499 元
☞苹果往事:“我们必须制造 iPhone,它一定会终结 iPod”
谷歌CEO皮查伊暗示要裁员;华为研发投入位居首位;Android 13首个安全更新|极客头条

登录查看更多
0

相关内容

推荐算法中的特征工程
专知会员服务
38+阅读 · 2022年9月9日
因果推理:连接数据和现实
专知会员服务
42+阅读 · 2022年8月25日
【干货书】概率,统计与数据,513页pdf
专知会员服务
136+阅读 · 2021年11月27日
专知会员服务
30+阅读 · 2021年9月23日
专知会员服务
41+阅读 · 2021年6月22日
【经典书】数据科学艺术:数据工作者指南,162页pdf
专知会员服务
54+阅读 · 2021年3月9日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
流计算引擎数据正确性的挑战
阿里技术
0+阅读 · 2022年10月13日
2022 年,捕捉这 12 个数据和分析趋势!
InfoQ
0+阅读 · 2022年4月22日
一文详解网易数帆数据生产力方法论
AI前线
0+阅读 · 2022年4月17日
消失的“金三银四”
人人都是产品经理
0+阅读 · 2022年3月3日
消失的「金三银四」
36氪
0+阅读 · 2022年2月28日
从阿里核心场景看实时数仓的发展趋势
阿里技术
0+阅读 · 2022年1月11日
面面观之易华录“数据银行”
THU数据派
0+阅读 · 2021年9月10日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Transformers in Remote Sensing: A Survey
Arxiv
25+阅读 · 2022年9月2日
Arxiv
19+阅读 · 2021年2月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2018年6月23日
VIP会员
相关VIP内容
推荐算法中的特征工程
专知会员服务
38+阅读 · 2022年9月9日
因果推理:连接数据和现实
专知会员服务
42+阅读 · 2022年8月25日
【干货书】概率,统计与数据,513页pdf
专知会员服务
136+阅读 · 2021年11月27日
专知会员服务
30+阅读 · 2021年9月23日
专知会员服务
41+阅读 · 2021年6月22日
【经典书】数据科学艺术:数据工作者指南,162页pdf
专知会员服务
54+阅读 · 2021年3月9日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
相关资讯
流计算引擎数据正确性的挑战
阿里技术
0+阅读 · 2022年10月13日
2022 年,捕捉这 12 个数据和分析趋势!
InfoQ
0+阅读 · 2022年4月22日
一文详解网易数帆数据生产力方法论
AI前线
0+阅读 · 2022年4月17日
消失的“金三银四”
人人都是产品经理
0+阅读 · 2022年3月3日
消失的「金三银四」
36氪
0+阅读 · 2022年2月28日
从阿里核心场景看实时数仓的发展趋势
阿里技术
0+阅读 · 2022年1月11日
面面观之易华录“数据银行”
THU数据派
0+阅读 · 2021年9月10日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员