【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统 - 专知

会员服务 ·

0

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

2021 年 4 月 26 日 专知

推荐系统广泛应用于在线服务，如搜索广告、新闻推荐和在线广告，提供个性化的预测和推荐来提高用户满意度和在线服务的收益。在推荐系统中，点击率（Click-Through-Rate，CTR）预测用于预测用户在特定上下文对不同商品点击的概率，直接影响到推荐系统的效果。近年来，由于深度学习技术在特征表示方面的良好性能，越来越多的深度点击率预测模型被提出和部署，如Google Play的Wide&Deep[3]、华为应用市场的DeepFM[1]和阿里巴巴的DIN[4]。主流的深度点击率预测模型由Embedding层和MLP层构成（如图1所示[5, 6]）：Embedding层将推荐搜索数据中高维稀疏的id特征（商品id、用户id等）映射为低维稠密向量；MLP层捕捉特征之间的非线性组合关系以得到更为准确的点击率预测值。由于推荐数据十分高维，特征维度可达亿级甚至百亿级别，Embedding层参数量很容易达到百GB甚至TB。面对超大规模Embedding的推荐模型，需要在尽可能少的时间内使用海量数据训练推荐模型的海量参数，以保证模型的时效性和预测效果。因此，如何基于海量数据完成超大规模推荐模型的高效训练，对于推荐系统十分关键。

本文将介绍华为诺亚推荐搜索与AI系统工程联合团队最新发表在SIGIR2021上的研究成果：ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table。ScaleFreeCTR针对超大规模Embedding的深度推荐模型，提出CPU-GPU协同训练系统，通过自研的MixCache缓存机制和高效的流水线设计，实现CPU-GPU数据传输延迟的降低，提升了并行效率。同等硬件下，训练性能超过HugeCTR的5倍，目前已在华为多个业务场景中应用，ScaleFreeCTR近期将在华为深度学习框架MindSpore进行开源。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SCTR” 就可以获取《【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

9

相关内容

推荐模型

【KDD2021-腾讯】Apache Spark大规模网络嵌入

专知会员服务

23+阅读 · 2021年6月23日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【IJCAI2021】深度点击率预估模型综述论文，9页pdf

【IJCAI2021】深度点击率预估模型综述论文，9页pdf

专知会员服务

29+阅读 · 2021年5月11日

【WWW2021】大规模组合K推荐

【WWW2021】大规模组合K推荐

专知会员服务

44+阅读 · 2021年5月3日

【WWW2021】场矩阵分解机推荐系统

【WWW2021】场矩阵分解机推荐系统

专知会员服务

33+阅读 · 2021年2月27日

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

专知会员服务

25+阅读 · 2020年12月27日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

23+阅读 · 2020年9月8日

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

专知会员服务

53+阅读 · 2020年8月25日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

MOBIUS：百度凤巢新一代广告召回系统

MOBIUS：百度凤巢新一代广告召回系统

DataFunTalk

11+阅读 · 2020年10月3日

SIGIR2020 | 一种新颖的推荐系统重训练技巧

SIGIR2020 | 一种新颖的推荐系统重训练技巧

机器学习与推荐算法

6+阅读 · 2020年9月7日

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果

PaperWeekly

3+阅读 · 2020年7月31日

【推荐系统】16篇最新推荐系统论文送你

【推荐系统】16篇最新推荐系统论文送你

深度学习自然语言处理

3+阅读 · 2020年3月7日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

推荐系统工程师必看！Embedding技术在深度学习CTR模型中的应用

推荐系统工程师必看！Embedding技术在深度学习CTR模型中的应用

AI前线

8+阅读 · 2019年5月26日

Word Embedding 词嵌入最新综述论文（附全文下载）

Word Embedding 词嵌入最新综述论文（附全文下载）

专知

9+阅读 · 2019年1月30日

美团“猜你喜欢”深度学习排序模型实践

美团“猜你喜欢”深度学习排序模型实践

机器学习研究会

4+阅读 · 2018年3月30日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

User-specific Adaptive Fine-tuning for Cross-domain Recommendations

Arxiv

0+阅读 · 2021年6月18日

ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table

Arxiv

7+阅读 · 2021年4月17日

$FM^2$: Field-matrixed Factorization Machines for Recommender Systems

Arxiv

16+阅读 · 2021年2月20日

AutoETER: Automated Entity Type Representation for Knowledge Graph Embedding

Arxiv

5+阅读 · 2020年10月6日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Attributed Network Embedding for Incomplete Structure Information

Attributed Network Embedding for Incomplete Structure Information

Arxiv

3+阅读 · 2018年11月28日

Collaborative Metric Learning Recommendation System: Application to Theatrical Movie Releases

Arxiv

7+阅读 · 2018年3月1日

CryptoRec: Secure Recommendations as a Service

Arxiv

6+阅读 · 2018年2月7日

ParVecMF: A Paragraph Vector-based Matrix Factorization Recommender System

Arxiv

9+阅读 · 2018年1月10日

VIP会员

相关主题

点击率预测

分布式训练

相关VIP内容

【KDD2021-腾讯】Apache Spark大规模网络嵌入

专知会员服务

23+阅读 · 2021年6月23日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【IJCAI2021】深度点击率预估模型综述论文，9页pdf

【IJCAI2021】深度点击率预估模型综述论文，9页pdf

专知会员服务

29+阅读 · 2021年5月11日

【WWW2021】大规模组合K推荐

【WWW2021】大规模组合K推荐

专知会员服务

44+阅读 · 2021年5月3日

【WWW2021】场矩阵分解机推荐系统

【WWW2021】场矩阵分解机推荐系统

专知会员服务

33+阅读 · 2021年2月27日

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测

专知会员服务

25+阅读 · 2020年12月27日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

23+阅读 · 2020年9月8日

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

专知会员服务

53+阅读 · 2020年8月25日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

MOBIUS：百度凤巢新一代广告召回系统

MOBIUS：百度凤巢新一代广告召回系统

DataFunTalk

11+阅读 · 2020年10月3日

SIGIR2020 | 一种新颖的推荐系统重训练技巧

SIGIR2020 | 一种新颖的推荐系统重训练技巧

机器学习与推荐算法

6+阅读 · 2020年9月7日

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果

PaperWeekly

3+阅读 · 2020年7月31日

【推荐系统】16篇最新推荐系统论文送你

【推荐系统】16篇最新推荐系统论文送你

深度学习自然语言处理

3+阅读 · 2020年3月7日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

推荐系统工程师必看！Embedding技术在深度学习CTR模型中的应用

推荐系统工程师必看！Embedding技术在深度学习CTR模型中的应用

AI前线

8+阅读 · 2019年5月26日

Word Embedding 词嵌入最新综述论文（附全文下载）

Word Embedding 词嵌入最新综述论文（附全文下载）

专知

9+阅读 · 2019年1月30日

美团“猜你喜欢”深度学习排序模型实践

美团“猜你喜欢”深度学习排序模型实践

机器学习研究会

4+阅读 · 2018年3月30日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

相关论文

User-specific Adaptive Fine-tuning for Cross-domain Recommendations

Arxiv

0+阅读 · 2021年6月18日

ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table

Arxiv

7+阅读 · 2021年4月17日

$FM^2$: Field-matrixed Factorization Machines for Recommender Systems

Arxiv

16+阅读 · 2021年2月20日

AutoETER: Automated Entity Type Representation for Knowledge Graph Embedding

Arxiv

5+阅读 · 2020年10月6日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Attributed Network Embedding for Incomplete Structure Information

Attributed Network Embedding for Incomplete Structure Information

Arxiv

3+阅读 · 2018年11月28日

Collaborative Metric Learning Recommendation System: Application to Theatrical Movie Releases

Arxiv

7+阅读 · 2018年3月1日

CryptoRec: Secure Recommendations as a Service

Arxiv

6+阅读 · 2018年2月7日

ParVecMF: A Paragraph Vector-based Matrix Factorization Recommender System

Arxiv

9+阅读 · 2018年1月10日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员