Spark精华问答 | Spark做大规模高性能数值计算可以吗?

2019 年 3 月 28 日 CSDN云计算

Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。


1

Q:Spark做大规模高性能数值计算可以吗?


A:Spark是高性能计算目前最佳的选择大数据计算平台;Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势;尤其值得一提的Spark框架的编写使用Scala,应用程序开发也主要是Scala,而Scala是分布式多核编程的核心语言,其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼;Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。


2

Q:Spark sql可以代替hive和hbase吗?

        

A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。


3

Q:一个worker上会有多个executor?executor个数是一个app一个吗?还是只有一个?

 

A:一个Worker会有多个executor,一个executor会运行多个task;一个executor只能为一个app实例服务,一个app可以有多个executor;Executor的配置要根据硬件和app处理的数据进行适当调优。


4

Q:只有一台机器能学习吗?


A:只有一台机器学习Spark是没有问题的;在一台机器上,可以使用local模式运行Spark程序;在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器,从而在多台机器上搭建集群。


5

Q:Spark环境需要哪些? 除了HDFS基础,有Spark集成包么?

        

A:Spark的安装需要Hadoop的HDFS;Spark有自己的集成包,但是依旧需要HDFS的配合;同时Spark也可以部署到亚马逊云上。


小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!


推荐阅读:


真香,朕在看了!
登录查看更多
0

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
是时候放弃TensorFlow集群,拥抱Horovod了
AI前线
5+阅读 · 2019年4月28日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
Arxiv
30+阅读 · 2019年3月13日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员