后 Hadoop 世界中的大数据

2019 年 8 月 23 日 InfoQ

作者丨Alex Woodie

译者丨Tina

国内外都纷纷唱衰 Hadoop,认为它没有未来。InfoQ 官网曾发布过《谁在“谋杀”Hadoop?》、《 Hadoop 不再权威,开源大数据的未来何去何从?》、《 Hadoop  衰落,数据湖项目开始失败,我们该如何应对?》等多篇文章,都对 Hadoop 的未来表示担忧。今天我们带来了 Alex Woodie 撰写的文章,分享了他对后 Hadoop 世界的大数据的看法和预测。  

在大数据争夺架构霸权之战中,云计算显然是赢家,而 Hadoop 明显落败了。现在客户已经不愿在单一的 Hadoop 集群上进行投资,转而青睐更灵活(如果不是更便宜的话)的云计算平台。虽然 Hadoop 上的泡沫已经明显破裂,但在构建大数据方面,组织仍然面临许多问题。

HPE 在 8 月 5 日收购了 MapR ,这可以说是 Hadoop 走在消亡路上的一个标志。人们曾将 Hadoop 视为未来的前沿平台,但现在,它看起来就像是另一个已经过时的遗留平台。曾经将 Hadoop 视为推动其大数据战略的核心技术的客户,现在正寻求转型,采用云平台来实现这些数据战略。

无论是在技术层面还是在市场层面,这种转变带来的影响都是深远的。在技术层面上,Hadoop 将计算和存储结合在一起——这是分布式架构的标志之一,直到社区修改 HDFS 以支持平淡无奇的 Hadoop 3.0 的抹除码(erasure code)时,它就已经失宠了。为取代 HDFS,我们用大规模的基于云的对象存储,构建在 AWS S3 模型上,并且能够根据需要启动计算,使用类似 Kubernetes 的虚拟化技术,而不是 YARN。

各组织不再花费大量资金雇佣工程师团队来运行复杂的本地 Hadoop 集群,他们发现,使用由 AWS、 Microsoft Azure 或 Google Cloud Platform 开发的预构建分布式计算服务,并将运营控制权交给云供应商更为经济。

这些云平台与 Hadoop 非常相似,包括了 Hadoop 世界中出现的所有计算引擎:Spark、Hive、HBase,甚至还包括 MapReduce。但是,运营复杂性的沉重负担却落在云供应商身上,而不是客户身上。

阻抗失配

Splice Machine 首席执行官兼联合创始人 Monte Zweben 表示,Hadoop 的操作复杂性就是一名杀手。Splice Machine 为 Hadoop 和其他平台开发了一个关系数据库。

他称,“当我们想把自己运送到另一个地方,需要一辆车时,我们就会去买一辆车。但我们并不会这样做:去买悬挂系统、燃料喷射装置,还有一堆车轴,然后把所有的东西都放在一起。可以这么说,我们是不会去拿材料清单的。”

“如果你看一下 Hadoop 和经销商的商业模式,你就会明白,这些就是你需要组装产品的材料清单。”Zweben 继续说道,“它们非常有效,也非常强大,而且还非常复杂。它们的目标是世界上构建软件的工程组织。它们被卖给世界各地的 IT 组织,这些组织拥有更多的操作技能,能够实现平台,并使其保持 7x24 的运行状态。”

阻抗失配(Impedance Mismatch)正是 Hadoop 消亡的核心,并对 Hadoop 商业模式造成了损害。面对来自云计算的猛攻,Hadoop 订购停滞不前,最终导致了 MapR 和 Cloudrea 的斗争公开化。HPE 为 MapR 的减价出售做好了准备,并在此过程中拯救了财富 500 强(Fortune 500 )和全球 2000 强(Global 2000 )中的许多客户,使他们免受因运行不受支持的企业数据平台版本而蒙受耻辱。在前首席执行官 Tom Reilly 和其联合创始人之一、首席战略官 Mike Olson 辞职后,Cloudrea 仍然没有任命常任首席执行官。

死而不僵的大象

那么,我们该会走向何处呢?Enterprise Strategy Group 高级分析师 Mike Leone 表示,Hadoop 背后的势头已经明显减弱,但尚未完全放弃这头“黄色大象”。

译注:Hadoop 的吉祥物是一头黄色大象。Hadoop 这个名称,并不代表任何英文词汇或缩写词,只是一个无中生有创造出来的名称。当初原始开发者 Doug Cutting 在为这个新技术命名时,他想选一个容易拼写和发音、便于沟通,且没有在其他地方使用过的名字,于是神来一笔地借用儿子黄色毛绒填充大象玩偶的名字,而黄色大象后来也变成了 Hadoop 的官方吉祥物,如图:

Leone 告诉 Datanami,“用‘死亡’这个词,真的有点过了,但市场肯定是在萎缩而不是增长。我们的研究表明,大约有 12% 的组织仍然利用 Hadoop 作为他们分析计划的一部分。从商业角度来看,Hadoop 有着惊人的承诺,但在交付方面却不尽如人意了。”

组织对利用大数据有很大的期望,虽然 Hadoop 可能不是将组织带到大数据福地的工具,但这些期望仍然存在。

“现在,随着主要云供应商提供的服务数量的不断增加,有许多不同的方法可以实现 Hadoop 承诺的商业效益。”Leone 说,“对于那些对云不感兴趣的行业,主要的云供应商希望通过 AWS Outposts 和 Google Cloud 的 Anthos 等技术,使组织能够将它们的大数据和分析服务带到本地环境中。”

在过去的十年里,由于在 Hadoop 上已经投资了数十亿美元,因此企业不愿意关闭它们的服务器集群。相反,大多数专家都希望 Hadoop 栈能够坚持一段时间,运行客户在其上构建的定制应用。它只是全球 2000 强企业数据中心中的又一项遗留技术,这些数据中心仍然运行着 IBM 大型机、AS/400,甚至是偶尔运行的 VAX 系统。

崭新的云架构

云供应商战胜企业中的 Hadoop 的一个副作用是,云计算的功能正在被移植到企业内部部署的系统中。

基于云的大数据系统提供商 Qubole 的首席执行官 Ashish Thusoo 称:“云架构正在逐步向本地数据中心发展。云架构意味着什么?这意味着所有的基础设施都是作为一种服务提供的,而不是作为整体产品提供的。”

基于 S3 模型构建的对象存储和基于 Kubernetes 的编排框架(允许计算快速启动和停止),是云计算功能进入内部部署的数据中心最明显的例子。

“人们普遍认为,具有计算、存储和短暂的计算分离的云架构具有很强的自动化能力,可以创建集群,而且作为服务的所有一切都可以在任何地方实现,无处不在。”Thusoo 表示,“它目前还处于发展的早期阶段。它远非主流或类似的东西。但这正是我们所看到的这些公用云供应商试图做的事情。”

Hadoop 经验教训

尽管有些人可能会认为 Hadoop 市场的瓦解是一个失败,但其他人会认为它是信息技术历史上的一个必要篇章。

Hadoop 模仿 Google 开发的技术,并在 Yahoo 投入使用,最终被其他科技巨头采用,如 Facebook、Twitter 和 Uber 等,他们都为开源贡献了自己的创意。Hadoop 方法代表了构建分布式系统的一种方法。全球 2000 强企业首次采用了这种方法。这种方法对于一些公司来说,它的效果很明显,但对其他公司来说却不太有效。随着世界的发展,其他许多人认为更好的架构理念出现了,因此我们尝试了一些新的事物,诸如此类。

Leone 预测,Hadoop 的教训不会被忽视。他说,“我认为,Hadoop 为一种新的做事方式提供了很好的介绍。对于那些等待采用大数据处理技术的组织来说,现在有更好的方法来实现这一点,即 Spark 或利用 Google Cloud Platform 的 Dataproc 或 AWS EMR 之类的云服务。”

Cloudera 将尝试与混合数据平台竞争,消除云计算供应商带来的“厂商锁定”困境(尽管云计算供应商显然将厂商锁定视为其商业模式的一个特征,而不是什么 bug)。但根据 Leone 的说法,云计算供应商完全淘汰剩下的 Hadoop 供应商只是一个时间问题。

“虽然组织仍然可以在他们选择的云上利用他们首选的 Hadoop 供应商技术,但是云计算供应商已经创建了托管服务,降低与 Hadoop 相关的所有复杂性,比如持续集成、管理和维护。”Leone 解释道,“如果组织已经投资数十万美元来建立为组织创造价值的流程,那么他们将很难改变这些工作流。将这些流程提升并将其转移到云计算供应商管理的更高效的基础架构中更有吸引力。对云计算供应商来说,最槽糕的情况是组织在他们的基础架构上运行。对于云计算供应商来说,最好的情况是放弃 Hadoop 供应商,使用他们提供的托管服务。”

如果 Zweben 能够做到这一点,那么新的云架构的采用者将永远不会重复他认为 Hadoop 最槽糕的功能之一:读取模式(schema on read)。

“在第一代 Hadoop 中,每个人都只是专注于将数据放到平台上。关于读取模式有很多讨论。这对社区里的每个人来说,这意味着什么,无须担心!只需将数据放在 Hadoop 上,人们就会以他们需要的方式来消费数据。”

“这是一个可悲的错误。”他继续道,“它导致了数据沼泽。如果你将 Hadoop 的复杂性、数据沼泽的现状和公用云的成功结合起来,你会发现这对 Hadoop 发行公司来说是一个非常大的问题。”

有人可能会争辩说,Cloudera、Hortonworks 和 MapR 都错过了公用云,现在,他们的午餐被 AWS、Azure 和 GCP 给瓜分了。Zweben 说,“这就是事实啊。”但这并不意味着客户可以继续使用他们的新的云架构,就像他们滥用 Hadoop 那样。

他说:“你可以在 S3 或 Azure 数据湖上转储你所有想要的数据,然后不假思索地这么做,最终你就会跟 Cloudera、Hortonworks 和 MapR 的第一代采用者一样最终到达同一个地方,这是错误的思维方式。”

在 Zweben 看来,考虑大数据的正确方式是,首先弄清楚你希望实现什么样的业务结果,然后从那里开始着手构建。只有在了解业务挑战之后,才能确保自己正在手机正确的数据,并以正确的方式应用机器学习。

Zweben 建议说:“首先要考虑要实现现代化的应用程序,然后找到你需要的数据和你需要注入的模型,以便实现应用程序的现代化。这种思维的倒置将彻底改变整个市场。”

原文链接:

https://www.datanami.com/2019/08/12/re-imagining-big-data-in-a-post-hadoop-world/


点个在看少个 bug 👇

登录查看更多
0

相关内容

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似。
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
104+阅读 · 2020年3月22日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
终于有人把云计算、大数据和人工智能讲明白了
Python开发者
3+阅读 · 2018年6月13日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
终于有人把云计算、大数据和人工智能讲明白了!
大数据技术
7+阅读 · 2018年4月2日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
Arxiv
102+阅读 · 2020年3月4日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
13+阅读 · 2018年4月6日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关VIP内容
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
104+阅读 · 2020年3月22日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
相关资讯
相关论文
Arxiv
102+阅读 · 2020年3月4日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
13+阅读 · 2018年4月6日
Arxiv
5+阅读 · 2018年3月6日
Top
微信扫码咨询专知VIP会员