Hadoop 气数已尽！

2019 年 6 月 12 日 云头条

随着大数据客户纷纷远离复杂技术、拥抱云计算，Hadoop供应商们摇摇欲坠。

大数据仍然是很重要，但昔日大数据时代的几个典范：Cloudera、Hortonworks和MapR最近相继失利，让大数据行业多少备受冷落。这几大巨头曾经是数据界的宠儿，能够筹集大笔资金（英特尔在单单一轮融资就向Cloudera投资了7.66亿美元！），它们迫于无奈只好缩减，要么合并（Cloudera和Hortonworks），要么裁员（MapR）。

在此期间，Elastic和MongoDB等其他开源大数据供应商却一路扶摇直上。怎么会这样？当然有诸多原因，其中一个原因是这个事实：昔日的Hadoop供应商将大笔赌注押错了对象，押在了与数据中心息息相关的工程师上，而市场已转向向云端寻求自由的开发人员。

大是相对的

MapR是当初靠Hadoop大发其财的供应商当中最近的遭殃者。MapR的估值一度超过10亿美元，它最近透露必须解雇122名员工（约占员工总人数的25%），包括首席执行官John Schroeder、其他高管和许多工程师，同时还要关闭总部大本营，除非能找到一个投资者。

这个投资者要在6月14日前签约，否则MapR的前途一片黯淡。

不过，近几年的情况也好不到哪里。据LinkedIn的数据显示，在近两年里，MapR估值缩水29%。无独有偶。Cloudera与Hortonworks合并（可能是由于这两家公司无法独自存活）后，刚公布了灾难般的收益，预计收入将比分析师预计的少6900万美元至8900万美元。与此同时，首席执行官Tom Reilly和首席安全官兼联合创始人Mike Olson双双宣布辞职。

Cloudera的股价一下子暴跌40%。

这样的结果更容易归咎于炒作过度的大数据领域回归现实，但其他供应商却蓬勃发展，尽管Hadoop的几只领头羊步履蹒跚。比如说，MongoDB数据库越来越受欢迎，现在人气与Oracle和MySQL一样旺（按各种排行榜来衡量），形成三足鼎立之势，仅仅5年前其市场份额还只有十分之一。反过来，这么旺的人气不断促使这家同名公司收入迅猛增长，最近收入更是猛增了78%。

与之相似，Elasticsearch分布式搜索和分析引擎背后的Elastic公司在去年的员工人数增加了一倍，最近一个季度的收入激增了70%。许多公司一直将Elastic用于传统的文本搜索及其他任务，比如伦敦斯坦斯特德机场使用Elastic的工具来跟踪和显示通过机场的人员和行李流量，以提供实时分析。

剧本不应该是这样的。按理说，MongoDB和Elasticsearch等技术及其背后的公司从来无法挑战Hadoop及其后续技术，但它们挑战成功了。原因何在？

预计云形势大好

嗯，云是一个原因，但它是多方面原因的一部分。正如Anaconda的高级副总裁Mathew Lodge所写，虽然Cloudera、Hortonworks和MapR拼命地从内部部署产品发展而来，来自AWS、微软Azure和谷歌的云原生方案都共同提供了“完全集成的产品，它们的购置成本更低，扩展起来费用更省。”许多企业注意到了这一点。同样，Hadoop供应商们在尽快构建云服务，但它们根本赶不上云计算竞争对手的速度。

虽然就当时而言Hadoop是革命性的技术，但与云替代产品相比，想继续拥有云的优点，其成本高得离谱。正如Clint Sharp特别指出，“Hadoop最主要的用途一直是廉价存储。[鉴于云]存储变得更便宜，加上S3+ EMR及其他服务的用户体验要好1000倍。”比如说，虽然Hadoop可能是传统专有数据仓库的出色替代品，但远不如像基于云的Snowflake这些更现代化的方法那么好。

与此同时，云预示着处理数据有了不同的新方式。云服务本身不是对等替换，不过与MongoDB或Elasticsearch一样，它们处理与Hadoop同样的几种问题，但处理起来简单得多。正如MongoDB的Joe Drumgoole所说，“编写高效的分布式map-reduce算法很难，确实很难。”更糟糕的是，Hadoop供应商竞相往各自的Hadoop产品添加一大批开源附加组件（Impala！Pig！Hive！Flume！），开发出更为笨拙的“解决方案堆栈”，直到最后“没有人知道这些Hadoop公司到底做什么，”据一位观察人士所说。

对于负责“完成任务”的开发人员而言，他们日益选择更简单的替代方案。

方便压倒一切

对于Hadoop及后续技术的用户而言，开箱即用的体验很差劲。MongoDB与之形成了鲜明对比。MongoDB前高管Kelly Stirman认为MongoDB用户体验是个关键的差异化优势。怎么会这样？Tom Barber解释道：

[若使用]MongoDB，你可以借助apt install指令轻松地安装在一台服务器上，不必捣鼓糟糕的虚拟机来入手。在生产环境中，你可以在一台服务器上运行它。可以将它连接到一堆东西上，没必要编写一堆代码。人们想要数据库...... MongoDB很容易获取数据，也很容易倒出数据。”

TimeScale DB首席执行官Ajay Kulkarni同意这个说法，他补充道：

备受开发人员的喜爱[是MongoDB击败Hadoop的原因]。Mongo专注于首次使用体验。众所周知，Hadoop运行起来很难。[Hadoop供应商]向企业销售宣传的工作做得很到位，但得不到开发人员的追捧，增长停滞不前，市场随之蒸发。

虽说开发人员的喜爱完全解释MongoDB和Elastic较之Cloudera和MapR取得成功这种说法未免夸大其辞，但这确实是一个重要的因素。

Jake Kaldenbaugh推理道，开发人员开始将MongoDB“嵌入到”他们的现代应用程序中。久而久之，将MongoDB推入到不太重要的应用程序的开发人员将MongoDB推入到关键业务应用程序中，MongoDB添加了支持更复杂的使用场合的功能（比如多文档事务），又不会使它们的复杂性变得大大提高。

那么，这让昔日的大数据巨头们何去何从？Lodge给出了悼词：

在Cloudera和Hortonworks [以及MapR]作为大数据领域的主角享受了10年的风光后，行业重心已转移到别处。领先的云公司并不运行来自Cloudera和Hortonworks的大型Hadoop/Spark集群，它们而是在容器基础设施上运行分布式云规模数据库和应用程序。它们使用Python、R和其他非Java语言搞机器学习。公司企业日益转向类似的方法，因为它们希望在速度和规模方面获得同样的好处。现在是Hadoop和Spark领域该与时俱进的时候了。

这是开源数据基础设施创新的祝福之一，也是诅咒之一。这一幕正以极快的速度上演，一些供应商会在此过程中轰然倒下。