论文笔记 : Dual Neural Personalized Ranking

会员服务 ·

论文笔记 : Dual Neural Personalized Ranking

2020 年 2 月 26 日 机器学习与推荐算法

作者：阿瑟_f7b5
链接：www.jianshu.com/p/0d959d2e11e7
来源：简书

本文是自己在推荐系统研究中研读的论文翻译及解读，本篇笔记非标准译文，其中包含了笔者自己对问题的部分理解，仅供参考，欢迎学习交流。

背景

隐式反馈数据是推荐中常见的数据类型，但是由于其固有的稀疏和单一类(one-class 0/1 )特性，很难从中完整发现有效的用户/物品特征。

文中提到：现有的针对隐式反馈的推荐模型往往存在数据稀疏问题，通常使用矩阵分解获取潜在用户/物品表示；此外，隐式反馈只提供了已知的正向数据，而未知反馈是模糊的（即数据模糊，不确定是正还是负例）。因此，有必要区分负反馈和未知反馈。 关于隐式反馈，可以看https://www.jianshu.com/p/d8173f29e4f8

本文作者提出DualNPR(双NPR) ，以统一的形式实现对用户和物品侧的逐对排序（pairwise ranking 两个PR）。

本文主要的创新点包括：

DualNPR利用用户和物品的成对排名发现用户和物品之间的真实相关性，缓解了数据稀疏问题。不需要额外的辅助信息，仅需要用户-物品交互矩阵。
其基于深度矩阵分解Deep Matrix Factorization来捕获用户/物品表示的可变性。特别是，它选择原始用户/物品向量作为输入，学习潜在用户/物品表示。
使用动态负采样方法提升了推荐效果。

DualNPR 模型设计

核心思想就是双侧设计，同时对用户侧和物品侧的排序关系进行考虑，围绕这个思想，作者进行了一下设计：

输入层设计

对于用户和物品采用one-hot编码，其实应该叫multi-hot编码，

对于例子用户比起更喜欢，有7个用户，5个物品的话，表示为：

相应的形式化表示为：

该部分表示成为用户/物品的raw vector表示，为了方便后续模型的计算处理，对两种不同维度的向量需要做填充操作

Embedding

在NPR和DMF的基础上，将经过多层隐含层的处理，模型中采用了共享权重的设计，可以加速训练，但是否有利于提高模型效果，原文并未给出解释

Scoring Layer

具体的评分函数则比较简单，有多种设计方式：

而双层设计的思想则体现在模型的输出上，包含两个输出：

那么相应的Loss对应如下，包含用户侧误差项和物品侧误差项：

具体模型使用/预测的时候，只用计算即可

模型训练

动态负采样 Dynamic Negative Sampling

模型训练中所需数据为三元组形式<u,i,j>，<i,u,v>，需要通过负采样获取负例，常见做法是从未交互过的物品/用户中等概率选取一定数量的样本作为负样本，本文提出使用动态负采样，对负例计算其排序重要程度，在此基础上计算其被采样概率，使得同一三元组中的正负样例差异增大，加快训练提升效果。

该部分细节仍在学习理解中，后续更新补充

整体流程如下：

实验结果

部分实验结果如下：

登录查看更多

相关内容

排序

关注 313

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序。反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。

基于上下文化图注意力网络的知识图谱的条目推荐，Contextualized Graph Attention Network for Recommendation with Item Knowledge Graph

专知会员服务

101+阅读 · 2020年6月28日

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

专知会员服务

27+阅读 · 2020年6月10日

近期必读的六篇SIGIR 2020【图神经网络 +推荐(GNN+RS) 】相关论文

专知会员服务

162+阅读 · 2020年6月2日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知会员服务

23+阅读 · 2020年6月2日