English. This document is designed to study the data structures that can be used in the Apache Spark framework and to evaluate the best performing ones to implement solutions, in particular we will evaluate advantages / disadvantages deriving from the use of Dataset for job creation. The observation of the results provides further support in evaluating the use of Dataset as an alternative to RDD, in order to understand its strengths and weaknesses. The examination of the results is possible thanks to specifically designed and implemented in Java 1.8 language. The execution of the jobs, entrusted to a suitable distributed environment, will end with the comparison between execution times and results obtained. Italiano. Il presente documento nasce allo scopo di studiare le strutture dati utilizzabili nel framework Apache Spark e valutare quelle pi\`u performanti per implementare soluzioni; valuteremo in articolare i vantaggi / svantaggi derivanti dall'utilizzo dei Dataset nella progettazione dei job. L'osservazione dei risultati fornisce ulteriore supporto nel valutare l'utilizzo dei Dataset in alternativa a RDD, al fine di comprederne i punti di forza e di debolezza. L'esame dei risultati \`e possibile in virt\`u di due casi appositamente pensati e implementati in linguaggio Java 1.8. L'esecuzione dei job, affidata a un adeguato ambiente distribuito, si concluder\`a con il confronto tra tempi di esecuzione e risultati ottenuti.


翻译:英文 。 此文件旨在研究 Apache Spark 框架中可以使用的数据结构, 并评估执行解决方案的最佳表现, 特别是我们将评估使用数据集创造就业的利弊。 观察结果为评估将数据集用作 RDD 的替代工具提供了进一步支持。 检查结果可以归功于以 Java 1. 8 语言专门设计和实施的数据结构。 委托给一个合适的分布环境执行的工作将随着对执行时间和所获结果的比较而结束。 Il 提供文档o nasce allo copo di di studiare lestruture dature dature stati du du pulizabilda el 框架 Achant e valutare quelle puuuéuétualoni; 在 antaggi 和 vantagi/ svantagigi endualisi endo endoriatio data di dataseticati dial deti du latial devati la lati lati endal li la la lati lati lisatual destal deti deti endal deti endals deti ali ali ali ali ali ali lati endals deti endals deti endals destals destals deti ad ad endals destalti ali moti ali ali ali 。

0
下载
关闭预览

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
15+阅读 · 2019年10月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
10+阅读 · 2019年1月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
VIP会员
相关VIP内容
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
15+阅读 · 2019年10月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
10+阅读 · 2019年1月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员