基于非易失内存的Shuffle机制 - 专知

会员服务 ·

1

基于非易失内存的Shuffle机制

2018 年 1 月 26 日 计算机研究与发展 潘锋烽, 熊劲

NV-Shuffle：基于非易失内存的Shuffle机制

在大数据运算系统中，许多大规模运算分析要求数据在不同阶段以不同的顺序或划分方式分布在大数据系统的运算节点上，这是由Shuffle操作实现的。为了容错和避免重复计算，Shuffle操作常常把数据持久化到外存文件系统中，因而I/O就成为影响Shuffle性能的重要因素，尤其对于以Spark为代表的内存大数据运算系统更是如此。NVM具有读写速度快、非易失、高密度等优点，为解决Shuffle操作的I/O性能问题提供了新的契机。

潘锋烽等作者在论文“NV-Shuffle：基于非易失内存的Shuffle机制”中，提出一种基于 NVM的Shuffle优化策略NV-Shuffle，采用了NVM主存进行Shuffle数据的存储与管理，从而避免了外存文件系统的开销。实验表明NV-Shuffie可有效降低Shuffle-heavy负载在Spark上的执行时间。

[引用]

潘锋烽, 熊劲. NV-Shuffle：基于非易失内存的Shuffle机制[J]. 计算机研究与发展，2018,55（2）：229-245

Pan Fengfeng, Xiong Jin. NV-Shuffle：Shuffle based on Non-Volatile Memory. Journal of Computer Research and Development, 2018,55（2）：229-245.

点击文末“阅读全文”可抢鲜阅读。

《计算机研究与发展》“面向新型硬件的数据管理”专题内容涵盖面向新型非易失存储NVM的数据管理和面向新型加速硬件的数据管理两大方面，并反映了国内学术领域和华为、阿里等产业界在面向新型硬件的数据管理方面的主要工作。包括7篇文章：

1 NV-Shuffle：基于非易失内存的Shuffle机制

2 面向大数据处理的基于Spark的异质内存编程框架

3 基于高性能SOC FPGA阵列的NVM验证架构设计与验证

4 基于Multi-GPU平台的大规模图数据处理

5 大数据处理中Hash Joins的加速实例

6 面向数据库的持久化事务内存

7 X-DB：软硬一体的新型数据库系统

登录查看更多

1

相关内容

非易失内存

非易失内存

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

【北京大学】面向5G的命名数据网络物联网研究综述

【北京大学】面向5G的命名数据网络物联网研究综述

专知会员服务

38+阅读 · 2020年4月26日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

CNCC技术论坛丨新型持久内存系统与安全

CNCC技术论坛丨新型持久内存系统与安全

中国计算机学会

7+阅读 · 2019年9月15日

基于Prometheus的K8S监控在小米的落地

基于Prometheus的K8S监控在小米的落地

DBAplus社群

16+阅读 · 2019年7月23日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

A Survey on Edge Computing Systems and Tools

Arxiv

36+阅读 · 2019年11月7日

CornerNet-Lite: Efficient Keypoint Based Object Detection

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

5+阅读 · 2019年4月17日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Pyramidal RoR for Image Classification

Arxiv

3+阅读 · 2017年10月1日

VIP会员

相关主题

非易失内存

大数据系统

相关VIP内容

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

【北京大学】面向5G的命名数据网络物联网研究综述

【北京大学】面向5G的命名数据网络物联网研究综述

专知会员服务

38+阅读 · 2020年4月26日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

生成式人工智能导论：可靠性、负责任开发及实际应用（第二版）

《2025财年美陆军转型倡议（ATI）部队结构与组织提案》

【CMU博士论文】分布偏移下的可信机器学习

智能体 EDA 的曙光：自主数字芯片设计综述

相关资讯

CNCC技术论坛丨新型持久内存系统与安全

CNCC技术论坛丨新型持久内存系统与安全

中国计算机学会

7+阅读 · 2019年9月15日

基于Prometheus的K8S监控在小米的落地

基于Prometheus的K8S监控在小米的落地

DBAplus社群

16+阅读 · 2019年7月23日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

相关论文

A Survey on Edge Computing Systems and Tools

Arxiv

36+阅读 · 2019年11月7日

CornerNet-Lite: Efficient Keypoint Based Object Detection

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

5+阅读 · 2019年4月17日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Pyramidal RoR for Image Classification

Arxiv

3+阅读 · 2017年10月1日

大家都在搜

MIT博士论文

分布式事务

蓝牙安全攻防

GitHub上已超过

微信扫码咨询专知VIP会员