Snowflake与Databricks创始人亲自开撕:数据仓库要过时了?

2021 年 11 月 18 日 InfoQ

编译 | 核子可乐、Tina
Databricks 与 Snowflake 之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。

短短半个月,大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。

11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。

在博客中,Databricks 声称这是一件大事,有助于证明数据仓库在未来十年要么不复存在,要么会大变样,“从长远来看,所有数据仓库都将被纳入数据湖仓”。

11 月 12 日,Snowflake 做出回应,发布了自己的测试结果,同时称 Databricks 公布的性能比较结论缺乏完整性,而且研究本身也存在缺陷。Snowflake 公司创始人还强调这种基准测试没什么意义,在这个年代发布数据库基准测试结果是“将正常的技术交流变成了缺乏完整性的营销噱头”。

11 月 15 日,Databricks 的创始人再次在其公司博客上给予回应,指责 Snowflake 为了测试结果竟然改了 TPC-DS 的输入数据,表示有些人不仅作弊还是“酸葡萄”。

这场战斗,双方的企业创始人纷纷亲自下场,可谓招招致命刀刀见血。大多数软件供应商永远不会满足于第二名,这也意味着 Snowflake 和 Databricks 之间的激烈斗争可能才刚刚开始。

事情经过
第一回合:Databricks 出击

Databricks 正着力推动一种名为“数据湖仓”的新型架构,支持者称这种架构甚至能够消除对于数据仓库的直接需求、颠覆几十年来的行业标准,其意义堪比出现了一款能够直接干掉谷歌 Chrome 的新型浏览器设计方案。

信心满满的 Databricks 挑上的第一个对手,就是 Snowflake——只要能用自己为云时代重新设计的数据湖仓技术击败最强在位者,价值 1070 亿美元的市场就将尽归己有。

11 月 2 日,Databricks 宣布经过事务处理性能委员会(简称 TPC)这家独立行业组织的验证确认,Databricks 的系统性能可达行业内最接近的其他数据仓库竞争对手的 2.2 倍。

Databricks 在博客中声称,在经典提取 - 转换 - 加载(ETL)流程的过滤与处理方面,其智能湖仓方案取得了超越 Snowflake 数据仓库方案的性能表现。此次比较采用了 TPC-DS 的基准测试并得到审计认证,其中 Databricks 实现了 3294 万 1245 QphDS @ 100TB 的成绩,打破了阿里巴巴定制系统此前保持的 1486 万 1137 QphDS @ 100 TB 的世界纪录。

Databricks 还宣布巴塞罗那超级计算中心(BSC)的研究团队运行了另外一项不同的基准性能比较,并发现 Databricks SQL(lake house)在同等规模下的速度可达 Snowflake 方案的 2.7 倍。研究团队在 Databricks 基准测试中使用到两种不同模式:按需与竞价(即使用可靠性较低、但成本同样较低的竞价实例)。Databricks 在按需模式下的成本为 Snowflake 的 1/7.4,在竞价模式下则可达到后者的 1/12。

公司 CEO Ali Ghodsi 在采访中表示,“我们基本上已经成功证明在数据湖仓的技术对抗中击败了 Snowflake。”

第二回合:Snowflake 还手

Snowflake 公司创始人 Benoit Dageville 与 Thierry Cruanes 很快做出回应,发表了一篇《行业标杆 诚信竞争》的博客文章。文中表示 Databricks“发布的 Snowflake 结果不透明、未经审计且无法重现。而且,这些结果也与我们的内部基准测试结果和客户体验完全相悖。”

TPC-DS 基准测试会对体量为 100 TB 的 TPC-DS 数据库运行 99 次查询。

Snowflake 对由巴塞罗那研究团队测得的上述 Databricks-Barcelona 结果提出异议,并自行重现了测试内容:

“配置全部为默认,所有查询都在一套 4XL 数据仓库上运行,总时长为 3760 秒;连续运行两轮,取最佳运行时间。可以看到,Snowflake 的实际结果达到 Databricks 报告结果的 2 倍多。而且这里使用的还只是 4XL 数据仓库,规模仅为 Databricks 测试中所用仓库的一半。”

虽然结果有所变化,但 Databricks 的性能领先地位并没有动摇。不过 Snowflake 目前正在开发 5XL 仓库技术,并宣称“我们现阶段的 5XL 仓库在总运行时间上大大优于 Databricks(2597 秒对 3527 秒)。未来在推出通用版本时,各项水平还将进一步提升。”

Databricks 公司还强调,巴塞罗那研究团队公布的结果证明其产品性价比远高于 Snowflake:

Snowflake 这边的两位创始人当然也不认可 Databricks 的性价比结论,表示其中存在误导性。“我们在 AWS-US-WEST 云区域内运行的 4XL 仓库标准版的按需模式价格为每小时 256 美元。由于 Snowflake 产品按秒计费,所以运行整个基准测试只需要 267 美元,绝不是 Databricks 方面报告的 1791 美元。”

下图所示为 Databricks 宣称成本与 Snowflake 实际成本比较:

所以跟性能的情况类似,Databricks 的表现确实比 Snowflake 更好,但好不了那么多。

而 Snowflake 创始人们认为,“如果使用标准版定价,Snowflake 与 Databricks 在性价比方面就基本相当了:对于此次提交给性能委员会的基准测试,两套方案同样运行 3527 秒后的按需成本分别为 267 美元与 275 美元。”

他们还鼓励感兴趣的朋友自己尝试运行 Snowflake TPC-DS 基准测试,验证到底是谁在信口雌黄。只需点击几下鼠标再等上一个小时左右,就能得出靠谱的结论。Snowflake 本身“不会发布综合行业基准,因为这些结果起不到任何有益客户的作用。”

第三回合:Databricks 再次回喷

几天后,Databricks 的创始人又亲自下场撕 Snowflake,表示自己做的就是“客户至上”的基准测试,并且认为 Snowflake 准备的 TPC-DS 数据集有问题。Databricks 利用官方的数据集、同样的硬件,发现测试的速度慢了一倍,和巴塞罗那研究团队的测试速度差不多。

总之,“我们将官方 TPC-DS 数据集加载到 Snowflake 中,对运行功率测试所需的时间进行计时,结果比 Snowflake 在他们的博客中报告的时间长 1.9 倍”。

基准测试的意义有多大?

Snowflake 公司创始人在回击中强调他们不愿意参与这种“与现实体验完全脱节、只为打压竞争对手而存在的基准测试之争,这种行为不符合我们客户至上的核心价值观。”

他们表示:“二十年前,数据库行业里每隔几个月就会有一次破基准测试记录的事情发生。这在当时是大家的首要任务...... 但现在数据库行业停止发布新结果也是有原因的。”

“任何拥有一定从业经历的朋友都有相同的体会,基准性能竞赛只会分散企业为客户打造优质产品时的专注度。”再说回 Databricks 公布的实例,“尽管 Databricks 的结果正由事务处理性能委员会(TPC)进行审计,但为了在比较中占据优势,他们已经把正常的技术交流变成了缺乏完整性的营销噱头。”

卡耐基梅隆大学副教授 Andy Pavlo 对此也表示,“在企业层面,也许有些 CIO 会关心产品在性能委员会那边的官方排名,但排名结果对实际销售的影响并不大。”

虽然事务处理性能委员会的影响力近年来一直不断下降,但在行业内的号召力仍然不容小觑。该委员会建立于上世纪八十年代,旨在为数据库性能评估提供中立的裁定指导。性能委员会会首先发布供各家数据库厂商运行的系统基准,之后再对结果进行小组审议与官方认证。

但随着整个行业的爆发式增长与竞争烈化,这些性能基准不但没有降低人们的认知门槛、反而加剧了混乱与争吵。例如,部分供应商开始大肆宣扬并未得到性能委员会正式认证的测试结果。Databricks 表示,他们发布的最新结果已经得到性能委员会的“审计与公布”。性能提升比例相当可观,足以让一部分仍在犹豫的潜在客户下定决心。

颠覆和变革是一场持久战

关注大数据和数据仓库领域动态的朋友可能有印象,本轮只是 Databricks 与 Snowflake 业务交锋的又一个新回合。

这场冲突势必会加剧数据仓库和湖仓一体技术之间的战斗。

Databricks 最初主要是一家数据湖公司,但一直在添加数仓功能,最终走向湖仓一体。Snowflake 则是反过来的,作为一家数仓起家的公司,却一直忙于拥抱数据湖功能。湖仓一体作为一个新兴架构,很多企业目前还在早期探索阶段。

虽然基准测试没有二十年前那么有影响力,但 Databricks 的测试结果值得关注。

“从长远来看,所有数据仓库都将被纳入数据湖仓,”Databricks 的联合创始人兼首席执行官 Ali Ghodsi 说。“这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的世界纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”

大数据平台领域专家关涛在回复 InfoQ 的采访中也曾讲道:“现在大多数企业都还没有用到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,业内对湖仓一体的整体大方向是高度达成一致的。

湖仓一体的兴起本质上是由用户诉求推动的,大家希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着 AI 的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数仓模型上。所以湖仓一体一定是未来的发展趋势。做数仓的会有更多数据湖属性,做数据湖的也会有更多的数仓属性,最后根据实际需求去找到中间的平衡。”

另外,Databricks 已经从投资者手中筹得 35 亿美元,专门用于聘请顶尖人才、打造竞争产品,可谓与 Snowflake 势不两立。Michalis Petropoulos 于今年 6 月加盟 Databricks 并出任高级工程总监。之前,他曾经领导过谷歌旗下的 BigQuery 团队并监督 Amazon Redshift 项目。此外,曾在谷歌领导 Spanner 团队的 Sridhar Machiraju 也在 11 月加入并担任公司高级工程总监。

这还只是新阵容中很小的一部分,过去一年来已经有十几名前亚马逊、谷歌、Snowflake 以及 IBM 员工加入到 Databricks 阵营。后续预计还将有更为庞大的招聘计划:谷歌工程总监 Amit Shukla 将于本月晚些时候加入。

Databricks 公司联合创始人 Reynold Xin 宣称,“我们的核心数据仓库团队……在实际规模上可能已经超越了 Snowflake 那边。”

在最近的几轮融资、性能委员会的认可以及众多新员工加入的利好加持之下,Databricks 的发展势头无疑颇为强劲。截至 8 月 31 日,该公司年经常性收入已经超过 6 亿美元,由此也能看出人们对 Databricks 的数据湖仓模型确实充满期待。

但前路仍然艰难。虽然 Ghodsi 言之凿凿,认为数据湖仓将给整个数据仓库市场带来颠覆性、甚至毁灭性的变革,但要想真的干掉领域内的头部厂商之一,并全盘取代他们长期受到欢迎的技术方案,单凭性能委员会的一份认证显然还远远不够。至少过去二十年来,无数企业级技术的迭起兴衰已经反复证明了这一点。

延伸阅读:

https://databricks.com/blog/2021/11/02/databricks-sets-official-data-warehousing-performance-record.html

https://www.snowflake.com/blog/industry-benchmarks-and-competing-with-integrity/

https://databricks.com/blog/2021/11/15/snowflake-claims-similar-price-performance-to-databricks-but-not-so-fast.html

InfoQ 采访:现在是采用湖仓一体的好时机吗?

https://www.infoq.cn/article/pb09krdg9azagqh4ls4x

今日好文推荐

9年当上架构师,我的很多想法变了

独家对话英特尔CTO Greg:让创新成为主流,英特尔将始终拥抱开发者

六年目睹企业间内卷怪现状:爬虫与反爬之战

腾讯员工入职满15年可提前退休;双11天猫总交易额5403亿元,京东超3491亿元;中芯国际重大人事震荡 | Q资讯



 活动推荐

对话式 AI 逐步走进生活的方方面面,视觉内容理解领域近期也有诸多研究成果落地实践。AI 在为我们带来便利的同时,你对它背后的技术了解多少呢?

11 月 26 日 AICon 全球人工智能与机器学习技术大会【AI 技术应用之解决方案】专场带深度剖析图像识别、语音识别、对话交互的前沿解决方案。我们特别邀请到来自 OPPO 小布智能研究中心、腾讯优图实验室和爱数智慧的三位大咖进行分享,不要错过现场交流的机会~ 感兴趣的同学扫描下方二维码或点击阅读原文报名。

点个在看少个 bug 👇

登录查看更多
0

相关内容

Databricks,是属于 Spark 的商业化公司,由美国伯克利大学 AMP 实验室的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务。
【吴恩达报告】以数据为中心的人工智能技巧
专知会员服务
51+阅读 · 2022年3月21日
【AI+医疗健康】美国数字健康战略(附44页最新报告)
专知会员服务
91+阅读 · 2022年3月15日
专知会员服务
75+阅读 · 2021年8月3日
专知会员服务
30+阅读 · 2020年12月21日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
特斯拉称霸中美市场,为什么在欧洲打不过大众?
创业邦杂志
0+阅读 · 2022年3月9日
详细对比后,我建议这样选择云数据仓库
InfoQ
0+阅读 · 2021年12月19日
Hadoop 生态里,为什么 Hive 活下来了?
InfoQ
0+阅读 · 2021年10月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
24+阅读 · 2021年6月25日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员