Spark精华问答 | Spark做大规模高性能数值计算可以吗？

2019 年 3 月 28 日 CSDN云计算

Spark作为一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

Q：Spark做大规模高性能数值计算可以吗？

A：Spark是高性能计算目前最佳的选择大数据计算平台；Spark的内存计算、快速迭代、DAG等都为大规模高性能数值计算提供了天然优势；尤其值得一提的Spark框架的编写使用Scala，应用程序开发也主要是Scala，而Scala是分布式多核编程的核心语言，其Function编程模型、Actor和并发的能力让大规模高性能数值计算如虎添翼；Spark配合Tachyon可以极大的提升大规模高性能数值计算的效率。

Q：Spark sql可以代替hive和hbase吗？

A：Spark SQL可以取代Hive；Spark SQL可以完成HBase的大部分功能；Spark Streaming配合Spark SQL可以取代HBase。

Q：一个worker上会有多个executor？executor个数是一个app一个吗？还是只有一个？

A：一个Worker会有多个executor，一个executor会运行多个task；一个executor只能为一个app实例服务，一个app可以有多个executor；Executor的配置要根据硬件和app处理的数据进行适当调优。

Q：只有一台机器能学习吗？

A：只有一台机器学习Spark是没有问题的；在一台机器上，可以使用local模式运行Spark程序；在一台机器上也可以通过VMware等虚拟机机制虚拟出多台Linux机器，从而在多台机器上搭建集群。

Q：Spark环境需要哪些？除了HDFS基础，有Spark集成包么？

A：Spark的安装需要Hadoop的HDFS；Spark有自己的集成包，但是依旧需要HDFS的配合；同时Spark也可以部署到亚马逊云上。

小伙伴们冲鸭，后台留言区等着你！

关于Spark，今天你学到了什么？还有哪些不懂的？除此还对哪些话题感兴趣？快来留言区打卡啦！留言方式：打开第XX天，答：……

同时欢迎大家搜集更多问题，投稿给我们！风里雨里留言区里等你~

福利

1、扫描添加小编微信，备注“姓名+公司职位”，加入【云计算学习交流群】，和志同道合的朋友们共同打卡学习！

2、公众号后台回复：白皮书，获取IDC最新数据白皮书整理资料！

推荐阅读：

真香，朕在看了！

登录查看更多

相关内容

Spark

关注 51

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

【NeurIPS2020提交论文】建立具有消息传递的等变图神经网络

专知会员服务

50+阅读 · 2020年6月29日

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日