类别特征(如用户/商品id)的嵌入学习是矩阵分解和神经协同过滤等各种推荐模型的核心。标准方法创建一个嵌入表,其中每一行代表每个唯一特征值的专用嵌入向量。然而,这种方法不能有效地处理现实世界推荐系统中普遍存在的高基数特征和不可见特征值(如新视频ID)。在本文中,我们提出了一种替代的嵌入框架深度哈希嵌入(Deep Hash embedding, DHE),用一个深度嵌入网络代替嵌入表来动态计算嵌入。DHE首先通过多个哈希函数和变换将特征值编码为唯一的标识向量,然后应用DNN将标识向量转换为嵌入。编码模块具有确定性、不可学习性、无存储性,而在训练时更新嵌入网络以学习生成嵌入。实验结果表明,DHE在模型尺寸较小的情况下,实现了与标准的一次性全嵌入相比较的AUC。我们的工作为不使用嵌入表查找的基于DNN的分类特征替代嵌入方案的设计提供了思路。
https://www.zhuanzhi.ai/paper/1f0cb7bda35e10bc09ffddea7d90d2bc