Nowadays, deep learning models are widely adopted in web-scale applications such as recommender systems, and online advertising. In these applications, embedding learning of categorical features is crucial to the success of deep learning models. In these models, a standard method is that each categorical feature value is assigned a unique embedding vector which can be learned and optimized. Although this method can well capture the characteristics of the categorical features and promise good performance, it can incur a huge memory cost to store the embedding table, especially for those web-scale applications. Such a huge memory cost significantly holds back the effectiveness and usability of EDRMs. In this paper, we propose a binary code based hash embedding method which allows the size of the embedding table to be reduced in arbitrary scale without compromising too much performance. Experimental evaluation results show that one can still achieve 99\% performance even if the embedding table size is reduced 1000$\times$ smaller than the original one with our proposed method.


翻译:目前,深层次学习模式被广泛采用于推荐人系统和在线广告等网络规模的应用中。在这些应用中,嵌入绝对特征对于深层学习模式的成功至关重要。在这些模型中,标准的方法是给每个绝对特征值指定一个独特的嵌入矢量,可以学习和优化。虽然这种方法可以很好地捕捉绝对特征的特征,并有望取得良好的业绩,但存储嵌入表,特别是这些网络规模的应用程序,可能会产生巨大的记忆成本。这样的巨大的记忆成本大大地抑制了 EDRMs 的有效性和可用性。在本文中,我们提出了一个基于二元代码的 Hash 嵌入方法,允许任意缩小嵌入表的大小,同时不影响太多的性能。实验性评估结果显示,即使嵌入表的大小缩小了1000美元\ 时间,但人们仍然可以达到99 ⁇ 的性能。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年8月13日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
开源TF-Ranking可扩展库,支持多种排序学习
机器学习算法与Python学习
3+阅读 · 2018年12月20日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
31+阅读 · 2021年3月29日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2019年2月8日
Arxiv
3+阅读 · 2018年12月21日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
开源TF-Ranking可扩展库,支持多种排序学习
机器学习算法与Python学习
3+阅读 · 2018年12月20日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Top
微信扫码咨询专知VIP会员