Deep learning recommendation systems must provide high quality, personalized content under strict tail-latency targets and high system loads. This paper presents RecPipe, a system to jointly optimize recommendation quality and inference performance. Central to RecPipe is decomposing recommendation models into multi-stage pipelines to maintain quality while reducing compute complexity and exposing distinct parallelism opportunities. RecPipe implements an inference scheduler to map multi-stage recommendation engines onto commodity, heterogeneous platforms (e.g., CPUs, GPUs).While the hardware-aware scheduling improves ranking efficiency, the commodity platforms suffer from many limitations requiring specialized hardware. Thus, we design RecPipeAccel (RPAccel), a custom accelerator that jointly optimizes quality, tail-latency, and system throughput. RPAc-cel is designed specifically to exploit the distinct design space opened via RecPipe. In particular, RPAccel processes queries in sub-batches to pipeline recommendation stages, implements dual static and dynamic embedding caches, a set of top-k filtering units, and a reconfigurable systolic array. Com-pared to prior-art and at iso-quality, we demonstrate that RPAccel improves latency and throughput by 3x and 6x.


翻译:深层学习建议系统必须提供质量高、个性化的内容,且要达到严格的尾延目标和高系统负荷。本文件展示了Repipe,这是一个共同优化建议质量和推导性能的系统。Repipe中心将建议模型分解成多阶段管道,以保持质量,同时降低计算复杂性和暴露独特的平行机会。Repipe实施一个推理表,将多阶段建议引擎映射到商品、多式平台(例如CPUs、GPUs)上。硬件敏化排程提高了排位效率,商品平台受到许多需要专门硬件的限制。因此,我们设计RepipAccel(RPAccel)系统(RPAccel)系统是一个定制的加速器,共同优化质量、尾延时间和系统吞吐量。Repac-cel专门设计了一个推算器,以利用通过RecPipe打开的多阶段设计空间、多式平台(例如CPUs、GPOs)。特别是,在管道中进行两套固定和动态嵌嵌入缓和动态嵌入缓冲器,一套顶端过滤式过滤式过滤器,通过前的阵列式和直压式阵列,通过Spart-Stravetraveltox-stox-stopreval-strax-strapal-stobilpal-strax-straxx。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年6月30日
专知会员服务
18+阅读 · 2021年6月29日
如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
64+阅读 · 2021年2月12日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
60+阅读 · 2020年3月19日
一文看懂序列推荐建模的最新进展与挑战
AINLP
3+阅读 · 2019年12月19日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:如何评估交互式推荐系统?
LibRec智能推荐
8+阅读 · 2019年5月5日
LibRec 精选:CCF TPCI 的推荐系统专刊征稿
LibRec智能推荐
4+阅读 · 2019年1月12日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Denoising User-aware Memory Network for Recommendation
Arxiv
0+阅读 · 2021年7月11日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
8+阅读 · 2019年5月20日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
14+阅读 · 2018年4月18日
VIP会员
相关资讯
一文看懂序列推荐建模的最新进展与挑战
AINLP
3+阅读 · 2019年12月19日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:如何评估交互式推荐系统?
LibRec智能推荐
8+阅读 · 2019年5月5日
LibRec 精选:CCF TPCI 的推荐系统专刊征稿
LibRec智能推荐
4+阅读 · 2019年1月12日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Denoising User-aware Memory Network for Recommendation
Arxiv
0+阅读 · 2021年7月11日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
8+阅读 · 2019年5月20日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
14+阅读 · 2018年4月18日
Top
微信扫码咨询专知VIP会员