Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。
Q:Spark做大规模高性能数值计算可以吗?
A:Spark是高性能计算目前最佳的选择大数据计算平台;Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势;尤其值得一提的Spark框架的编写使用Scala,应用程序开发也主要是Scala,而Scala是分布式多核编程的核心语言,其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼;Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。
Q:Spark sql可以代替hive和hbase吗?
A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。
Q:一个worker上会有多个executor?executor个数是一个app一个吗?还是只有一个?
A:一个Worker会有多个executor,一个executor会运行多个task;一个executor只能为一个app实例服务,一个app可以有多个executor;Executor的配置要根据硬件和app处理的数据进行适当调优。
Q:只有一台机器能学习吗?
A:只有一台机器学习Spark是没有问题的;在一台机器上,可以使用local模式运行Spark程序;在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器,从而在多台机器上搭建集群。
Q:Spark环境需要哪些? 除了HDFS基础,有Spark集成包么?
A:Spark的安装需要Hadoop的HDFS;Spark有自己的集成包,但是依旧需要HDFS的配合;同时Spark也可以部署到亚马逊云上。
小伙伴们冲鸭,后台留言区等着你!
关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……
同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~
福利
1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!
推荐阅读: