与Hadoop之父聊聊天

2017 年 7 月 21 日 CSDN大数据 景琦

作为关注大数据领域的编辑,小编一听说能采访到Hadoop创始人就激动不已。CSDN早在2013年已采访过Cloudera首席架构师Doug Cutting先生,时隔多年,我们在北京Strata Data Conference活动中,再次见到这位老朋友。今天,包括Hadoop和一些近期涌现的新技术,与Doug先生进行了探讨。


话题主要涵盖:


  • Hadoop的从0到1 

  • Hadoop的小伙伴——云计算 

  • Hadoop背后的AI、IoT商机 

  • 处理器数量和延迟之间的平衡 

  • 未来在云上还是地上? 

  • 中国用户更喜欢开源版本 

  • 想学Hadoop,要从实践出发


以下是访谈摘要:


粉丝小编与大神的合影必须提前(身高差请忽略,补一句,Doug身高190cm以上!)


Hadoop的从0到1


记者:Doug Cutting先生,请问您做Hadoop的初衷是什么,最初打算解决什么问题?现在的Hadoop与你之前想象的一样吗?


小贴士:2004年,Cutting决定开发一款可以代替当时的主流搜索产品的开源搜索引擎——Nutch。Google此时正好发布了一项研究报告,介绍了两款自家的搜索引擎而开发的软件平台:GFS(Google File System),用于存储不同设备所产生的海量数据;另一个是MapReduce,负责分布式大规模数据。


Doug:创建Hadoop的时候,当时我正在做一个项目,这个项目的代号叫Nutch。当时希望能够基于开源去创建出一种网络搜索的引擎,实现一种具有可扩展性、可收缩性的数据技术。同期我们看到了来自于Google的几篇论文,我们觉得他们的想法和我们的想法是完全一致的,所以我们把Google的想法放到了Nutch项目当中来实施了。当时需要做好手上的项目,确实是没有预想到这个技术以后有如此之广的用途。当时我认为仅仅也就是主要用于搜索引擎和网站的创建上,现在Hadoop在制造、银行、电信很多的行业有着广泛应用,让我感觉到非常惊喜。


当初也没有一个关于Hadoop将来如何发展的计划,Hadoop发展的演进范围、规模大大超出了我当初的预想。最让我惊喜的就是围绕着Hadoop以及基于Hadoop所有的项目和技术,并不是基于某一个单独的技术。而是基于多种技术组成的系列家族,整个技术系列是在不断发展和演进之中,也就是说围绕着Hadoop现在已经形成了非常强大的生态系统,Hadoop整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。


点评:大神也是踩在巨人的肩膀造出了“Hadoop”,当年的星星之火,现在已经燎原。


Hadoop的小伙伴——云计算


记者:云计算和Hadoop几乎同岁,它们之间现在是什么关系?


Doug:我认为云计算或云模式使得客户在使用Hadoop的方式上具有了更大的灵活性。如果他们把Hadoop用本地安装运行的形式来使用的话,往往需要建一个单个很大的集群来支持各种不同的应用。如果在云环境当中来运行Hadoop,他们的数据会在亚马逊存储之类的系统当中,云环境供应商已经帮助他们管理了数据的拷贝。


与此同时在云环境当中使用Hadoop,客户可以针对不同的应用创建应用不同的集群,而这样的集群开关或者是规模的伸缩,都可以按需进行,这样对于客户来说,他们对于应用有了更好控制的同时也增加了灵活性。


从整个IT长远的发展趋势来看,过去IT在一个企业当中往往是集中在一个部门的手中,但是现在我们看到很多的企业的数据和数字技术,是在整个企业当中得到了扩散和广泛使用,并不是所有IT的事项像过去一样要找IT部门解决,各个非IT的部门具有越来越大的能力,云计算是促进和推动了这一趋势的发展,云计算使得一个公司当中非IT部门,例如运营、制造、市场营销部门都能够自行采购一些服务并且加以运行,他们的控制能力和灵活性都大大增加了。所以说云计算本身也是促进了IT和数据的分散化、自助化,而不是像过去那种集中化的模式。


Hadoop背后的AI、IoT商机


记者:前些年我们谈大数据谈得比较多,这两年人工智能、IoT非常热,在您看来这它们之间有什么样的联系? IoT和AI是否给现在Hadoop和spark带来更多的是商机呢?


Doug:我觉得Hadoop和AI之间是非常适合、非常匹配的一项技术,因为AI本身就是一种大数据的应用。特别是在对于AI的系统进行训练的时候,使用的数据越多,AI系统就越先进。上周Google发表了一篇文章,主要讲的是AI的图象识别,也就是说在用数以十亿计的图象识别的深度智能系统进行培训的基础之上,仍然是使用的数据越多、有的图片越多,这种深度学习图象识别的能力就越强。也就是说对于人工智能系统进行训练使用的数据量越大,人工智能系统的质量就越高,从这个意义上来说,AI本身也是一种大数据应用。


Hadoop作为一项基础仍然是在发挥着关键作用,与此同时spark对于像IoT和AI的应用,也在起到越来越重要的作用。除此之外,新的技术会涌现出来,这样能够使得开源的整个生态系统进一步得到发展和改进。如果有了更好的存储技术或者是更好的分析技术,毫无疑问Cloudera会采用这些技术。在开源的世界当中,竞争的逻辑是不一样的,没有哪个公司是拥有开源的技术。每当开源的技术有了新的发明或进展,开源群体的每一分子都会受益于其中。如果有一些领域会出现新的技术,在某些方面会优于Hadoop,那Cloudera也会毫无疑问去采纳这样的技术放到我们的解决方案当中去交付给客户。


处理器数量和延迟之间的平衡


记者:对于Hadoop分布式存储来说,整个存储的平衡和调度非常重要,如果节点多了网络延时会比较长,如果节点少了就有算不过来的现象。请问在处理速度、网络延时和成本几个要素之间如何取得比较好的平衡?请问您有什么样的经验。


Doug:实际情况也并不是那么简单,或者说实际情况是有很多的例外。在很多案例当中,有时候处理器越多也能够做到延迟越低,主要是看对于要处理的问题、处理的任务怎样划分。比如通过Hbase或通过很多交互式的系统,在节点越多的情况下反而能降低延迟,这是因为任务处理有很好的并行性。所以说现在大部分情况下,节点的数量或处理器的数量和延迟之间的平衡是不难找到的。 


接下来就要讲成本,成本确实是一个考虑因素,首先我们的软件是开源的,而且我们所有解决方案能够使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用,只不过有很多其他的应用暂时还没有用上低成本的架构,还有进一步降低成本的潜力。


Hadoop未来在云上还是地上?


记者:您认为未来Hadoop在主流的应用是在云上,还是在实体的物理机上?


Doug:我认为这两种使用方式在未来若干年当中会长期共存下去,比方说对于一些数据量非常之大,而且本身企业的处理资源很强的客户来说,很多的工作负载特别是像需要全天候永续运行的工作负载是放在本地的物理机上运行,经济实用性更强,扩展性也更强。另外对于其他一些类型的工作负载,包括对于一些刚刚起步的企业来说,可能放在云环境当中运行更加合适。还有一些工作负载或者是数据的处理,由于受制于法律上的要求,规定必须要放在本地的物理机当中来运行的。 


就Cloudera而言,我们目前的业务以云模式做的占到了15%到20%,这肯定会增长。我预计将来会达到40%到60%,但是不会到90%。本地安装运行的模式仍然会是我们业务的一个重要组成部分。


中国用户更喜欢开源版本


记者:第一个问题,中国跟其他国家相比,在大数据应用方面有哪些不一样的地方,或者说Hadoop的生态体系现在是什么样的状况?


Doug:从中国的角度来说,从大数据出现一直到今天,中国一直是在大量使用、采用和参与推进大数据的发展。而且在过去十年当中,Hadoop在中国也是一直得到了大力推进,取得了非常大的成功。我们可以看到中国市场和Hadoop之间有一个非常自然的契合和匹配,从数据的角度来说中国可能是世界上最大的单一市场,在中国拥有数据的数量和规模超过了世界上大部分其他的国家,这也就是为什么Hadoop在中国有着非常成功的发展。


讲到中国Hadoop的生态圈和其他国家有没有不同呢?可能有一个不同,就是在中国很多Hadoop的用户习惯使用Hadoop的开源版本,而不需要去具体得到哪一家公司的支持和帮助。中国市场和美国相比,是需要花更多的时间对市场进行教育和培育,也就是让人们能够了解到从更加长远的角度来说,在使用这些软件的过程当中如果能够得到有关方面的支持和帮助,会有更好的结果。这样的市场教育在中国可能是要花更长的时间,但是对于Hadoop在中国的发展前景我是非常有信心的。


想学Hadoop,要从实践出发


记者:CSDN这边有很多的开发者用户,大家很关注Hadoop的教育课程。如果是一个零基础的学生或者是入门者想学习Hadoop,应该如何入手?是从案例的角度去出发,还是先阅读相关的书籍?Cloudera对于这些开发者的支持方面,未来有哪些计划?


Doug:就培训而言,Cloudera是一直在推动各种培训的项目。对于一个零起步的开发者来说,学习Hadoop最好的方式我认为是不要通过看教科书,要通过案例来学习,通过案例的需求在具体实施当中、具体实践当中来学,这样的学习效果是更好的。


在教育培训的计划方面,Cloudera有一个学术计划,在这个计划当中我至少知道在北京已经有一个合作伙伴加入了,那就是清华大学,可能在中国还有其他的大学加入。在这个计划当中,Cloudera把大数据培训的技能、教材、内容免费提供给大学合作伙伴。另外在亚洲有一个BASE Initiative(大数据分析技能培训计划)的教育项目,在新加坡以及不久前在台湾都已经做了。BASE Initiative主要是Cloudera和大学、政府部门,和需要招聘大数据人才的公司一起来合作,对潜在对象进行大数据技能的教育培训,并且招聘其中的一些人到有大数据技能需求的公司来工作。


结语


这次简短的采访,让我认识到一个技术传奇的平凡与不同。作为Hadoop的缔造者,他的经历对未来有着深远的影响,但通过其回答的问题,我们也看到一个普通技术从业人员的朴实与真诚。包括小编在内,CSDN作为中国最大的技术社区,有着太多他的粉丝,CSDN计划将在今年年末举办2017 BDTC(中国大数据技术大会,前身是Hadoop中国云计算大会),希望Doug Cutting先生能再次莅临我们的盛会。

登录查看更多
0

相关内容

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
对话微软小冰武威:聊天机器人的演进之路
智东西
10+阅读 · 2018年12月10日
深度解析京东个性化推荐系统演进史
CSDN云计算
6+阅读 · 2017年12月11日
4个方面,系统总结个性化推荐系统
人人都是产品经理
7+阅读 · 2017年12月10日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
当知识图谱遇上聊天机器人
PaperWeekly
34+阅读 · 2017年7月16日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
相关资讯
对话微软小冰武威:聊天机器人的演进之路
智东西
10+阅读 · 2018年12月10日
深度解析京东个性化推荐系统演进史
CSDN云计算
6+阅读 · 2017年12月11日
4个方面,系统总结个性化推荐系统
人人都是产品经理
7+阅读 · 2017年12月10日
【推荐系统】深度解析京东个性化推荐系统演进史
产业智能官
23+阅读 · 2017年12月8日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
当知识图谱遇上聊天机器人
PaperWeekly
34+阅读 · 2017年7月16日
Top
微信扫码咨询专知VIP会员