推荐系统论文一起读

2017 年 6 月 13 日 ResysChina PaperWeekly

「每周一起读」是由 PaperWeekly 发起的协同阅读小组。我们每周精选一篇优质好文,利用在线协同工具进行精读并发起讨论,在碎片化时代坚持深度阅读。目前已成立的专题小组有:Chatbot、机器翻译、知识图谱、GAN、推荐系统、QA、增强学习、多模态、自动文摘和统计学习。


Collaborative Metric Learning

http://www.cs.cornell.edu/~ylongqi/paper/HsiehYCLBE17.pdf


 论文讨论精选


blaze


[1 +d(xi;xj)2d(xi;xk)2]+,

此处的 hinge loss 是如何 pushes away the impostors from the neighborhood and maintains a margin of safety 的?


edison: 此处的 push 函数输出有三种情况: 前提假设 i 和 j 是同一类别,来检测 k 是否是异常点,如果是并且对目标损失函数有影响,应加入最优化目标中。


1. 如果 i 和 k 属于同一类,则(1-yik)为 0,k 不是异常点责 push 函数失效; 


2. 如果 i 和 k 属于不同类,同时“1 +d(xi;xj)2 - d(xi;xk)2”小于等于 0,由 [z]+= max(z;0) 得 [1 +d(xi;xj)2-d(xi;xk)2] 为 0,换句话就是说 I 和 j 比 I 和 k 更相近,不影响判别 i 和 j 的距离,push 失效; 


3. 如果 i 和 k 属于不同类,同时“1 +d(xi;xj)2 - d(xi;xk)2”大于 0,由 [z]+= max(z;0) 得 [1 +d(xi;xj)2-d(xi;xk)2] 为 z,换句话就是说 I 与 j 本属于一类 pair,我们要最小话 I 和 j 的距离,由于异类 k 的影响,我也要考虑异常点带来的影响。

volador


Approximated Ranking Weight

这个地方介绍了如何计算 pairwise 样本权重,但没有找到如何从 U 个负采样样本中选择一个靠谱的负样本进行梯度更新,莫非是挑分值最高的那个?


Ttssxuan: 文中说使用 [ J/N ] 进行计算,J 是 item 的总数,N 是找到一个 inpostor 需要进行取样的次数,这样可以理解,当 N 需要的次数越少,则 weight 越大,则越容易被负例影响,LOSS 在这些 CASE 上也需要更多“关注”。


Ttssxuan


Top-K Recommendations with LSH

使用 LSH 可以加速搜索,之前在这方面也纳闷,我们经常使用的是 cosin 距离,这样就不能使用 LSH,而本文基本 euclidean 距离很好的解决这个问题,此外,直观上理解,相似、相关这类,大多应该是具有传递性的,但在 cosin 距离中,这方面几乎不能体现。


volador: 在用分解模型做 pairwise 推荐时候,基本上都是基于内积计算。


MorrisLee: Hi,请问这里具体是怎样去做推荐的呢?我只是明白 loss function 的意思,对它的输出 $u^{}$ 和 $v^()$,之后是再用一些相似性度量的方法?还是?


volador: 要看你在目标函数里面是怎么 user-item 的相似度了,这篇文章用了欧几里得距离,那么在计算得分的时候最好也采用欧几里得距离,用其他的度量方法估计对效果影响会非常大。


volador


Weighted Approximate-Rank Pairwise (WARP)

其实 WARP 的原文是这么计算权重 w 的。首先 w 是依赖正样本商品 i 排序位置的函数,核心部分就落在了正样本商品 i 的排序位置估计上面。假设在第 t 次迭代的时候商品 i 的排序位置为 r_i, 那么采样到排序位置比 i 高的负样本概率就为 lambda = r_i / |I|。这个采样过程可以理解成一个几何分布,进行很多次试验,找到这么一个排序位置比 i 高的负样本的期望次数为 1 / lambda。但本文直接采样一批商品,然后估计 lambda = M / U。


ben: Thanks, 非常有趣的问题,暂且不管本文的处理。真正的权重 w 和真实的排序位置有关这非常合理,问题就是于如何估计真实的排序位置 r_ir i 的问题,因为真实的 rank 是未知的。一个合理的步骤是利用上一次的结果 \hat{r}_i r ^  i 计算 weight,利用新的 weight 估计新的 \hat{r}_i r ^  i 直到收敛。


volador: 这里其实并不 care 真实的排序,w 只是定义的一种 pairwise loss,假设前提是 scoring function 的输出要让正样本的排序位置要比负样本的高,正样本的排序靠后就会产生 loss,越靠后 loss 就越大。r+ir+i 是可以直接通过暴力排序得到的,但这个计算量太大了,所以就有了采样估计的思路了。


ben: 我觉得我们必须讲清楚我们的 Goal 是什么,如果这个 goal 只是要把 S 这个集合区分开来,那我完全同意你的观点,甚至 w 都可以不用,直接 SVM classification 就可以做到这一点。 但是对于这个例子,我不这么认为,即使在 S 集合里面的 item 难道就没有 weight 的区别了吗。我觉得是有的,而且和真实的 rank 有关。直观上来看,我们在被推荐的时候,总是更多地去关注前几名被推荐的 item。这一点在普遍的 ranking 的指标 MAP, NDCG 都有体现。所以我还是认为这个权重是和真实的 rank 有关的。 你最后说的 r_ir i 用暴力来获得,我不是特别理解。


volador: 我以为你是在针对这篇工作来讨论,你可以看下 Section 3.1 的假设是希望在只有隐含反馈数据的情况下学习一个排序函数。集合里面的 item 肯定是有区别的,但这篇论文讨论的场景并没有什么 rating 之类的显性反馈。这里并非是完全的 classification,也没有什么 feature。你可以对所有商品进行打分,然后排序得到 r_i。


edison: ben 的点是正确的,wij 的确和真 rank 有关,原文中还有一处说 rank_ij 就是在 user 的 S 集合计算而来,而 rank_ij 决定 wij 的输出。


masker: 你把原文 WARP 的引用过来的过程可能被它吸引去了一部分精力,原文是 sample 一个负例,这里是考虑正例之间的权重。


想和我们一起研读优质paper?


点击「阅读原文」提交内测申请,我们将在 48 小时内完成审核并和您取得联系。



关于PaperWeekly


PaperWeekly是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事AI领域,欢迎在公众号后台点击「交流群」,小助手将把你带入PaperWeekly的交流群里。


点击 |  阅读原文 | 进行报名
登录查看更多
15

相关内容

专知会员服务
43+阅读 · 2020年7月7日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
58+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
70+阅读 · 2020年4月7日
专知会员服务
88+阅读 · 2020年1月20日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
44+阅读 · 2020年1月10日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
88+阅读 · 2019年10月21日
可解释推荐:综述与新视角
专知会员服务
112+阅读 · 2019年10月13日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
近期必读的12篇「推荐系统」相关论文
PaperWeekly
33+阅读 · 2019年3月7日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统中的矩阵分解技术
AINLP
9+阅读 · 2018年12月24日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
5+阅读 · 2018年10月4日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
4+阅读 · 2018年4月9日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2020年7月7日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
58+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
70+阅读 · 2020年4月7日
专知会员服务
88+阅读 · 2020年1月20日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
44+阅读 · 2020年1月10日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
88+阅读 · 2019年10月21日
可解释推荐:综述与新视角
专知会员服务
112+阅读 · 2019年10月13日
相关资讯
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
近期必读的12篇「推荐系统」相关论文
PaperWeekly
33+阅读 · 2019年3月7日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统中的矩阵分解技术
AINLP
9+阅读 · 2018年12月24日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
相关论文
Top
微信扫码咨询专知VIP会员