This paper proposes TRAININGCXL that can efficiently process large-scale recommendation datasets in the pool of disaggregated memory while making training fault tolerant with low overhead. To this end, i) we integrate persistent memory (PMEM) and GPU into a cache-coherent domain as Type-2. Enabling CXL allows PMEM to be directly placed in GPU's memory hierarchy, such that GPU can access PMEM without software intervention. TRAININGCXL introduces computing and checkpointing logic near the CXL controller, thereby training data and managing persistency in an active manner. Considering PMEM's vulnerability, ii) we utilize the unique characteristics of recommendation models and take the checkpointing overhead off the critical path of their training. Lastly, iii) TRAININGCXL employs an advanced checkpointing technique that relaxes the updating sequence of model parameters and embeddings across training batches. The evaluation shows that TRAININGCXL achieves 5.2x training performance improvement and 76% energy savings, compared to the modern PMEM-based recommendation systems.


翻译:本文建议培训计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化系统化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化系统系统系统化系统化系统化系统化系统化系统,从而采用计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化系统化系统化系统化系统化系统化系统化系统化系统化系统化计算机化系统化系统化系统化系统化系统化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化计算机化

0
下载
关闭预览

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
48+阅读 · 2022年10月2日
Meta最新WWW2022《联邦计算导论》教程,附77页ppt
专知会员服务
59+阅读 · 2022年5月5日
机器学习组合优化
专知会员服务
109+阅读 · 2021年2月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年3月13日
Arxiv
0+阅读 · 2023年3月12日
Arxiv
23+阅读 · 2022年2月4日
VIP会员
相关VIP内容
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
48+阅读 · 2022年10月2日
Meta最新WWW2022《联邦计算导论》教程,附77页ppt
专知会员服务
59+阅读 · 2022年5月5日
机器学习组合优化
专知会员服务
109+阅读 · 2021年2月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员