在大数据运算系统中,许多大规模运算分析要求数据在不同阶段以不同的顺序或划分方式分布在大数据系统的运算节点上,这是由Shuffle操作实现的。为了容错和避免重复计算,Shuffle操作常常把数据持久化到外存文件系统中,因而I/O就成为影响Shuffle性能的重要因素,尤其对于以Spark为代表的内存大数据运算系统更是如此。NVM具有读写速度快、非易失、高密度等优点,为解决Shuffle操作的I/O性能问题提供了新的契机。
潘锋烽等作者在论文“NV-Shuffle:基于非易失内存的Shuffle机制”中,提出一种基于 NVM的Shuffle优化策略NV-Shuffle,采用了NVM主存进行Shuffle数据的存储与管理,从而避免了外存文件系统的开销。实验表明NV-Shuffie可有效降低Shuffle-heavy负载在Spark上的执行时间。
[引用]
潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展,2018,55(2):229-245
Pan Fengfeng, Xiong Jin. NV-Shuffle:Shuffle based on Non-Volatile Memory. Journal of Computer Research and Development, 2018,55(2):229-245.
点击文末“阅读全文”可抢鲜阅读。
《计算机研究与发展》“面向新型硬件的数据管理”专题内容涵盖面向新型非易失存储NVM的数据管理和面向新型加速硬件的数据管理两大方面,并反映了国内学术领域和华为、阿里等产业界在面向新型硬件的数据管理方面的主要工作。包括7篇文章:
1 NV-Shuffle:基于非易失内存的Shuffle机制
2 面向大数据处理的基于Spark的异质内存编程框架
3 基于高性能SOC FPGA阵列的NVM验证架构设计与验证
4 基于Multi-GPU平台的大规模图数据处理
5 大数据处理中Hash Joins的加速实例
6 面向数据库的持久化事务内存
7 X-DB:软硬一体的新型数据库系统