Hadoop 气数已尽 !

2019 年 6 月 12 日 云头条

随着大数据客户纷纷远离复杂技术、拥抱云计算,Hadoop供应商们摇摇欲坠。


大数据仍然是很重要,但昔日大数据时代的几个典范:Cloudera、Hortonworks和MapR最近相继失利,让大数据行业多少备受冷落。这几大巨头曾经是数据界的宠儿,能够筹集大笔资金(英特尔在单单一轮融资就向Cloudera投资了7.66亿美元!),它们迫于无奈只好缩减,要么合并(Cloudera和Hortonworks),要么裁员(MapR)。


在此期间,Elastic和MongoDB等其他开源大数据供应商却一路扶摇直上。怎么会这样?当然有诸多原因,其中一个原因是这个事实:昔日的Hadoop供应商将大笔赌注押错了对象,押在了与数据中心息息相关的工程师上,而市场已转向向云端寻求自由的开发人员。


大是相对的


MapR是当初靠Hadoop大发其财的供应商当中最近的遭殃者。MapR的估值一度超过10亿美元,它最近透露必须解雇122名员工(约占员工总人数的25%),包括首席执行官John Schroeder、其他高管和许多工程师,同时还要关闭总部大本营,除非能找到一个投资者。


这个投资者要在6月14日前签约,否则MapR的前途一片黯淡。


不过,近几年的情况也好不到哪里。据LinkedIn的数据显示,在近两年里,MapR估值缩水29%。无独有偶。Cloudera与Hortonworks合并(可能是由于这两家公司无法独自存活)后,刚公布了灾难般的收益,预计收入将比分析师预计的少6900万美元至8900万美元。与此同时,首席执行官Tom Reilly和首席安全官兼联合创始人Mike Olson双双宣布辞职。


Cloudera的股价一下子暴跌40%。


这样的结果更容易归咎于炒作过度的大数据领域回归现实,但其他供应商却蓬勃发展,尽管Hadoop的几只领头羊步履蹒跚。比如说,MongoDB数据库越来越受欢迎,现在人气与Oracle和MySQL一样旺(按各种排行榜来衡量),形成三足鼎立之势,仅仅5年前其市场份额还只有十分之一。反过来,这么旺的人气不断促使这家同名公司收入迅猛增长,最近收入更是猛增了78%。


与之相似,Elasticsearch分布式搜索和分析引擎背后的Elastic公司在去年的员工人数增加了一倍,最近一个季度的收入激增了70%。许多公司一直将Elastic用于传统的文本搜索及其他任务,比如伦敦斯坦斯特德机场使用Elastic的工具来跟踪和显示通过机场的人员和行李流量,以提供实时分析。


剧本不应该是这样的。按理说,MongoDB和Elasticsearch等技术及其背后的公司从来无法挑战Hadoop及其后续技术,但它们挑战成功了。原因何在?


预计云形势大好


嗯,云是一个原因,但它是多方面原因的一部分。正如Anaconda的高级副总裁Mathew Lodge所写,虽然Cloudera、Hortonworks和MapR拼命地从内部部署产品发展而来,来自AWS、微软Azure和谷歌的云原生方案都共同提供了“完全集成的产品,它们的购置成本更低,扩展起来费用更省。”许多企业注意到了这一点。同样,Hadoop供应商们在尽快构建云服务,但它们根本赶不上云计算竞争对手的速度。


虽然就当时而言Hadoop是革命性的技术,但与云替代产品相比,想继续拥有云的优点,其成本高得离谱。正如Clint Sharp特别指出,“Hadoop最主要的用途一直是廉价存储。[鉴于云]存储变得更便宜,加上S3+ EMR及其他服务的用户体验要好1000倍。”比如说,虽然Hadoop可能是传统专有数据仓库的出色替代品,但远不如像基于云的Snowflake这些更现代化的方法那么好。


与此同时,云预示着处理数据有了不同的新方式。云服务本身不是对等替换,不过与MongoDB或Elasticsearch一样,它们处理与Hadoop同样的几种问题,但处理起来简单得多。正如MongoDB的Joe Drumgoole所说,“编写高效的分布式map-reduce算法很难,确实很难。”更糟糕的是,Hadoop供应商竞相往各自的Hadoop产品添加一大批开源附加组件(Impala!Pig!Hive!Flume!),开发出更为笨拙的“解决方案堆栈”,直到最后“没有人知道这些Hadoop公司到底做什么,”据一位观察人士所说。


对于负责“完成任务”的开发人员而言,他们日益选择更简单的替代方案。


方便压倒一切


对于Hadoop及后续技术的用户而言,开箱即用的体验很差劲。MongoDB与之形成了鲜明对比。MongoDB前高管Kelly Stirman认为MongoDB用户体验是个关键的差异化优势。怎么会这样?Tom Barber解释道:


[若使用]MongoDB,你可以借助apt install指令轻松地安装在一台服务器上,不必捣鼓糟糕的虚拟机来入手。在生产环境中,你可以在一台服务器上运行它。可以将它连接到一堆东西上,没必要编写一堆代码。人们想要数据库...... MongoDB很容易获取数据,也很容易倒出数据。”


TimeScale DB首席执行官Ajay Kulkarni同意这个说法,他补充道:


备受开发人员的喜爱[是MongoDB击败Hadoop的原因]。Mongo专注于首次使用体验。众所周知,Hadoop运行起来很难。[Hadoop供应商]向企业销售宣传的工作做得很到位,但得不到开发人员的追捧,增长停滞不前,市场随之蒸发。


虽说开发人员的喜爱完全解释MongoDB和Elastic较之Cloudera和MapR取得成功这种说法未免夸大其辞,但这确实是一个重要的因素。


Jake Kaldenbaugh推理道,开发人员开始将MongoDB“嵌入到”他们的现代应用程序中。久而久之,将MongoDB推入到不太重要的应用程序的开发人员将MongoDB推入到关键业务应用程序中,MongoDB添加了支持更复杂的使用场合的功能(比如多文档事务),又不会使它们的复杂性变得大大提高。


那么,这让昔日的大数据巨头们何去何从?Lodge给出了悼词:


在Cloudera和Hortonworks [以及MapR]作为大数据领域的主角享受了10年的风光后,行业重心已转移到别处。领先的云公司并不运行来自Cloudera和Hortonworks的大型Hadoop/Spark集群,它们而是在容器基础设施上运行分布式云规模数据库和应用程序。它们使用Python、R和其他非Java语言搞机器学习。公司企业日益转向类似的方法,因为它们希望在速度和规模方面获得同样的好处。现在是Hadoop和Spark领域该与时俱进的时候了。


这是开源数据基础设施创新的祝福之一,也是诅咒之一。这一幕正以极快的速度上演,一些供应商会在此过程中轰然倒下。


相关阅读:

MapR 或 6.14 关闭:因业绩极差、投资者撤退

重磅:Cloudera、Hortonworks 合并 !

云在颠覆Hadoop!

Hadoop vs Spark

Gartner:伙计们,你们搞错Hadoop和Spark了,它们可能会失败!

Hadoop的光芒日渐黯淡

Hadoop 衰败的 4 个原因

Hadoop 架构已凋谢 ?!

Hadoop处于风雨飘摇中|「云头条」


登录查看更多
0

相关内容

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似。
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
当ES赶超Redis,这份ES进修攻略不容错过!
DBAplus社群
3+阅读 · 2018年4月15日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
推荐系统这事,难不?难在哪里?
聊聊架构
7+阅读 · 2018年2月26日
零基础如何快速搭建一个推荐系统?
StuQ
5+阅读 · 2018年2月26日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
1年开发经验,25万年薪的1个捷径,98%Python程序员都不知道
机器学习算法与Python学习
7+阅读 · 2018年5月23日
当ES赶超Redis,这份ES进修攻略不容错过!
DBAplus社群
3+阅读 · 2018年4月15日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
推荐系统这事,难不?难在哪里?
聊聊架构
7+阅读 · 2018年2月26日
零基础如何快速搭建一个推荐系统?
StuQ
5+阅读 · 2018年2月26日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
相关论文
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
4+阅读 · 2018年1月15日
Top
微信扫码咨询专知VIP会员