1-基于非易失内存的Shuffle机制

2018 年 1 月 15 日 计算机研究与发展 潘锋烽, 熊劲
NV-Shuffle:基于非易失内存的Shuffle机制

在大数据运算系统中,许多大规模运算分析要求数据在不同阶段以不同的顺序或划分方式分布在大数据系统的运算节点上,这是由Shuffle操作实现的。为了容错和避免重复计算,Shuffle操作常常把数据持久化到外存文件系统中,因而I/O就成为影响Shuffle性能的重要因素,尤其对于以Spark为代表的内存大数据运算系统更是如此。NVM具有读写速度快、非易失、高密度等优点,为解决Shuffle操作的I/O性能问题提供了新的契机。

潘锋烽等作者在论文NV-Shuffle:基于非易失内存的Shuffle机制中,提出一种基于 NVMShuffle优化策略NV-Shuffle,采用了NVM主存进行Shuffle数据的存储与管理,从而避免了外存文件系统的开销。实验表明NV-Shuffie可有效降低Shuffle-heavy负载在Spark上的执行时间。


[引用]

潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展,2018,55(2):229-245

Pan Fengfeng, Xiong Jin. NV-Shuffle:Shuffle based on Non-Volatile Memory. Journal of Computer Research and Development, 2018,55(2):229-245.

点击文末“阅读全文”可抢鲜阅读。

       《计算机研究与发展》面向新型硬件的数据管理专题内容涵盖面向新型非易失存储NVM的数据管理和面向新型加速硬件的数据管理两大方面,并反映了国内学术领域和华为、阿里等产业界在面向新型硬件的数据管理方面的主要工作。包括7篇文章:

1 NV-Shuffle:基于非易失内存的Shuffle机制

2 面向大数据处理的基于Spark的异质内存编程框架

3 基于高性能SOC FPGA阵列的NVM验证架构设计与验证

4 基于Multi-GPU平台的大规模图数据处理

5 大数据处理中Hash Joins的加速实例

6 面向数据库的持久化事务内存

7 X-DB:软硬一体的新型数据库系统

登录查看更多
1

相关内容

专知会员服务
81+阅读 · 2020年6月20日
轻量级神经网络架构综述
专知会员服务
97+阅读 · 2020年4月29日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
38+阅读 · 2020年4月26日
CNCC技术论坛丨新型持久内存系统与安全
中国计算机学会
7+阅读 · 2019年9月15日
基于Prometheus的K8S监控在小米的落地
DBAplus社群
16+阅读 · 2019年7月23日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
35+阅读 · 2019年11月7日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
9+阅读 · 2018年5月7日
VIP会员
相关资讯
CNCC技术论坛丨新型持久内存系统与安全
中国计算机学会
7+阅读 · 2019年9月15日
基于Prometheus的K8S监控在小米的落地
DBAplus社群
16+阅读 · 2019年7月23日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
相关论文
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
35+阅读 · 2019年11月7日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
9+阅读 · 2018年5月7日
Top
微信扫码咨询专知VIP会员