对话Hadoop之父Doug Cutting： Hadoop是无心插柳的惊喜，其在AI时代仍有想象力

2017 年 7 月 18 日 大数据文摘 钱天培

大数据文摘作品，转载要求见文末

大数据文摘记者：钱天培

提到大数据， Doug Cutting可能是最应该被记住的角色。他十年前的作品Hadoop运用分布式存储、运算技术为大数据处理带来了巨大突破。

1985年毕业于斯坦福大学，Doug Cutting先后任职于Xerox、Architext、Yahoo和Cloudera，并开发了全球首个全文文本搜索的开源函数库Lucene、著名的开源搜索引擎Nutch，以及他最引人瞩目的作品Hadoop。

7月13日至15日，全球数据盛会Strata Data Conference展会在北京召开。Hadoop之父、现任Cloudera首席架构师的Doug Cutting参与并主持了本次大会14日的Keynote演讲，开幕仪式后，他接受了大数据文摘等媒体的采访，为我们讲述了Hadoop诞生的故事，并指出了Hadoop拓展技术生态与云模式、并与AI结合的未来发展方向。

Hadoop的诞生：无心插柳的惊喜，发展远超预想

“当时我只是个人有这样的一个需要，就是想要做好手上的项目。”

谈起他开发Hadoop的初衷，Cutting表示，差不多十年前的项目伊始阶段，他并没有一个明确的Hadoop发展计划。

2004年，处于自由职业阶段的Cutting正在与好友从事一个代号为Nutch的项目的运转开发，旨在能够基于开源去创建出一种网络搜索的引擎，实现一种具有可扩展性、可收缩性的数据技术。巧合的是，Google同期发表的几篇论文与他们的想法十分切合，Cutting便顺势将Google的想法放到了Nutch项目当中来实施。

就这样，对大数据运算产生了深远影响的开源软件框架Hadoop诞生了。

在开发之初，Hadoop主要服务于搜索引擎和网站创建的服务，而此后，Hadoop也在制造、银行、电信等众多行业得到了广泛应用，Facebook、eBay、LinkedIn等公司都成为了Hadoop的用户。

“当时我确实是没有预想到，这个技术创建出来以后具有如此之广的用途。Hadoop发展的演进范围、规模确实大大超出了我当初的预想。”Cutting笑着说道。

Hadoop新方向：拓展技术生态与云模式，与AI结合

在今天，Hadoop作为一项基础技术在业界发挥着关键作用。而更让Cutting惊喜的是，围绕着Hadoop也发展出了一些列的技术与项目。

“Hadoop逐渐发展成了一个基于多种技术组成的系列家族，围绕着Hadoop已经形成了非常强大的生态系统。”Cutting这样告诉我们。

举例说，作为Hadoop系存储系统之一的Kudu也已在业界被广泛应用。Kudu是一款非常强大的存储引擎，它既具备了像Hbase随机访问的强大知识能力，同时又有HDFS快速查询能力。此外，Cutting也提到了Cloudera目前正在开发的一款基于Spark机器学习的工具——Apache Spot。这款产品旨在保护用户的网络安全，让他们免遭黑客的攻击。

在大数据与AI技术火热发展的当下， Hadoop也成为了与之相当匹配的技术。以Google近期发表的AI图象识别为例，这项技术基于数以十亿计的图象识别深度智能系统培训，背后仍然是用大数据实现AI的理念。人工智能系统进行训练使用的数据量越大，人工智能系统的质量就越高，而Hadoop生态圈即是大规模数据运算的关键之一。

除此之外，云计算与云模式的理念也进入了Hadoop的开发中。目前，Hadoop的用户可以在云环境中使用这一架构，这一改变为用户提供了更大的灵活性。

Cutting告诉我们，如果用户把Hadoop用本地安装运行的形式来使用的话，他们往往是建单个很大的集群来支持各种不同的应用，并且拥有一个统一的数据拷贝。如果在云环境当中来运行Hadoop，他们的数据会存储在亚马逊之类的系统当中，云环境供应商已经帮助他们管理了数据的拷贝。

与此同时，在云环境当中使用Hadoop，客户可以针对不同的应用创建不同的集群，而这样的集群无论是开关或者是规模的伸缩，都可以按需进行，这样对于客户来说，他们在对于应用有了更好控制的同时也增加了灵活性。

然而，Cutting也认为，Hadoop在云上的应用与实体物理机上的应用在未来的若干年仍然会长期并存下去。

比方说对于一些数据量非常之大，而且本身企业的处理资源很强的客户来说，很多的工作负载，特别是像需要全天候永续运行的工作负载更适合放在本地的物理机上运行，这带来的经济实用性更强，扩展性也更强。此外，由于受制法律上的要求，还有一些工作负载或者是数据的处理按规定是必须要放在本地的物理机当中来运行的。

在Cloudera，目前Hadoop业务的云模式占到了15%到20%。Cutting认为这一比例在未来会增长到40%到60%，但是不会到90%。也就是说，本地安装运行的模式仍然会是Hadoop业务的一个重要组成部分。

Hadoop在中国：用户习惯有待培养，教育计划正在起步

在访谈中，Cutting也特意提及了Hadoop在中国的发展状况。Cutting认为，Hadoop与中国市场之间有一个非常自然的契合和匹配。

从大数据出现一直到今天，中国一直是在大量使用和参与推进大数据的发展。而在过去十年当中，Hadoop在中国也是一直得到了大力推进，取得了非常大的成功。从数据的角度来说，中国可以说是世界上最大的单一市场，中国拥有数据数量和规模超过了世界上大部分其他的国家，这也就是为什么Hadoop在中国有着非常成功的发展。

然而，Cutting也注意到了中国市场与美国市场在用户习惯上的差异。很多中国的Hadoop用户仍旧习惯使用Hadoop的开源版本，而不需要去具体得到哪一家公司的支持和帮助。中国市场相比美国，仍然需要花更多的时间对市场进行教育和培育，也就是让人们能够了解到，在使用这些软件的过程当中如果能够得到有关方面的支持和帮助，从更加长远的角度来说会有更好的结果。

“这样的市场教育在中国可能是要花更长的时间，但是对于Hadoop在中国的发展前景我是非常有信心的。”Cutting自信地说道。

Cutting也注意到了以Hadoop教育为首的Cloudera学术计划在中国的起步，在这个计划当中，Cloudera把大数据培训的技能、教材、内容免费提供给大学合作伙伴，目前已有包括清华大学在内的多所高校参与了这一计划。此外，Cloudera也正在亚洲开展一个名为BASE Initiative（大数据分析技能培训计划）的教育项目。在这一计划中，Cloudera与大学、政府部门，和需要招聘大数据人才的公司一起合作，对潜在对象进行大数据技能的教育培训，并且招聘其中的一些人到有大数据技能需求的公司来工作。

大数据普及：卖产品只是开始，结构变化、人才培养才是关键

除Spark之外，Cutting也谈到了近几年大数据应用的普及。Cutting指出，各行各业的大数据项目当前保持着稳步持续地增长。自从Cloudera诞生以来，大数据的应用一直处在稳步增长的曲线之中，而没有出现停滞不前或者是失去动力的情况。

大数据已经在多个领域取得了重大突破，如反欺诈方面。另外即使在医疗领域，大数据也已经有了很多成功案例，比方说美国有一家公司Cerner开发了一套大数据系统，主要是来判断患者有可能发生败血症的情况。即使是在癌症治疗方面，大数据的应用也在取得更多的进展，比方说在基因组学的研究方面，以及在取得治疗癌症方面的进展。

然而，Cutting也告诉我们，大数据应用的普及是一个长期的过程，应该让每一家公司、每一个组织机构都能够用正确的方式用好数据，即使这需要花很长的时间。普及大数据应用不像卖智能手机，不是说把产品卖到人手一台，这个事情就完成了。大数据的普及，需要组织结构本身发生很大的变化，还需要很多的教育工作、人才的培养工作，但是这一切都是在稳步推进当中。

知识图谱vs统计学：谁是人工智能发展关键？

最后，对于知识图谱与统计学谁能引领人工智能发展的问题，Cutting也提出了他的看法。

Cutting认为，在推动人工智能的过程当中，知识图谱、知识工程的方法并没有统计学方法那么成功。知识工程在上世纪八十年代就已经非常流行了，但深度学习在当今取得的成功主要依靠的其实是统计学的方法，也就是基于巨量数据的各种模型的训练。基于统计学的深度学习在像图像识别、语音识别以及分类任务的完成之上取得了巨大的成就。这不代表知识图谱、知识工程的方式在人工智能当中永远不会成功，只是在目前的现状当中它们还不如统计学的方法那么有效。

此外，Cutting也指出了深度学习进一步发展所要面临的挑战，即深度学习的有用性、适用性、广度到底有多大。目前在一些认识、识别任务的完成当中，深度学习非常有效，比方说在大量的噪音或者是干扰的因素中进行清晰的识别、分类、标签。但是在处理其他涉及形势分析与决策的任务，刚才说到的这种能力还是远远不够的。

“虽然目前人们对于深度学习能够完成很多其他的任务是非常乐观的，但是我希望这样的乐观不会是一种过度的乐观。”Cutting如是说。

            
            
              
             
             
                              
               
                 
                
                
                  关于转载

                
                
                  

                
                
                   
                 
                    
                  
                    如需转载，请在开篇显著位置注明作者和出处（转自：大数据文摘 | bigdatadigest），并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑，可直接转载，转载后请将转载链接发送给我们；有原创标识文章，请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者，我们将依法追究其法律责任。联系邮箱：zz@bigdatadigest.cn。