论文阅读笔记之《基于LDA模型的协同过滤》

2018 年 6 月 13 日 FCS

点击上面蓝字

关注我

     人工智能(AI)的浪潮正在席转全球,众多热门研究话题也蜂拥而至,我们FCS期刊关于人工智能研究的论文受到的关注也更多。今天,FCS给大家分享一篇人工智能专栏论文——《Exploit latent Dirichlet allocation for collaborative filtering(基于LDA模型的协同过滤)》的读者给我们带来的论文阅读笔记。如果您也同样对这篇论文感兴趣,或者也想把您阅读我们期刊论文的感受分享给更多的小伙伴,欢迎在文后留言或者与我们联系。

原文信息:

Exploit latent Dirichlet allocation for collaborative filtering

Frontiers of Computer Science,2018,12(3): 571-581

Zhoujun LI, Haijun ZHANG, Senzhang WANG, Feiran HUANG, Zhenping LI,Jianshe ZHOU

长按识别二维码,阅读文章详情

01

引言

       基于协同过滤的推荐系统利用“用户-项目”评分矩阵来预测用户对特定项目的兴趣程度,并基于此为用户推荐其在未来可能感兴趣的新项目。目前,协同过滤推荐系统的研究聚焦于两大主要问题,即OCCF(one-class collaborative filtering,单类协同过滤)和MCCF(multi-class collaborative filtering,多类协同过滤)。在OCCF中,"用户-项目"评分矩阵内的值只可能为1或缺失。当用户u对项目i给出正反馈时,例如社交网络中的“关注”或购物网站中的“收藏”和“购买”,记元素。在MCCF中,“用户-项目”评分矩阵中的元素可能有多种取值,代表了用户对项目的喜好程度,例如点评网站中的星级评分。

        当前,针对OCCF问题的方法大致可分为三类:pointwise methods(逐点方法)、pairwise methods(成对方法)和content-based methods(基于内容的方法),但这三类方法都假设“用户-项目”评分矩阵中的缺失值为负例,这可能导致新的数据偏移问题。而基于内容的方法往往需要获取项目的文本描述信息,当这类信息缺失时,算法的应用效果将被限制。

       本文将LDA模型应用于协同过滤推荐系统中。其主要思想是将“用户-项目”评价矩阵直接作为文本分析中的“语料库”,使用LDA模型来抽取出“用户-项目”矩阵中的隐含主题信息。基于此,本文提出了适用于OCCF问题的LDAOCCF方法和适用于MCCF问题的LDA-RSVD方法。本文提出的LDA协同过滤方法不需要项目的文本描述信息,也不带有“所有缺失值均为负例”的假设。实验结果表明,本文提出的方法在OCCF和MCCF问题上均达到了更好的效果。

02

基于LDA模型的协同过滤

2.1 LDA-OCCF:面向OCCF的LDA

       LDA(Latent Dirichlet Allocation)是一种非监督学习技术,能够从文本语料库中识别出潜藏的主题(topic)信息。在分析前,首先将语料库转换为一个矩阵,矩阵的行代表语料库内的每篇文档,列代表语料库中出现的所有单词,矩阵中的元素表示对应单词在文档中的出现次数。随后LDA对语料库进行建模,生成两种分布:“文档-主题”分布,描述主题出现在文档中的概率;“主题-单词”分布,描述单词出现在主题中的概率。通过分析文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。

      应用到推荐系统中,若将“用户”看作“文档”,将“项目”看作“单词”,将“用户-项目”评分看作单词在文档中的出现频率,则“用户-项目”评分矩阵可作为”语料库“直接用于LDA建模。用户的隐含兴趣点可由主题的分布表示,而每个主题由项目的分布表示。据此就能够计算出用户对项目的喜好程度。

       具体地说,LDA-OCCF方法由以下两个步骤组成:

       2.1.1 学习“用户-主题”分布和“主题-项目”分布

       该方法的生成过程定义如下:

       (1)对每个用户,取样生成主题分布

       (2)对每个主题,取样生成项目分布

       (3)对“用户-项目”矩阵中每个观测值对应的二元组 

        a. 生成主题

        b. 生成项目

       其中,表示参数为的狄利克雷分布,表示参数为的多项分布,表示用户评价过的项目对应的主题。LDA-OCCF使用Gibbs采样来估计参数

       2.1. 2 预测用户对项目的喜好程度

       该方法使用下式来计算用户对项目的喜好程度:

       其中,表示对用户来说项目出现的概率,为用户对主题的分布,为主题对项目的分布。

       与之前的方法相比,LDA-OCCF有以下优点:

       (1)评分矩阵中的缺失值仅表示“未知”,不再假设为负例。

       (2)无需项目的文本描述信息。

       (3)该模型学得的参数为概率分布,在防止过拟合方面更具鲁棒性。

2.2LDA-RSVD:LDA优化的RSVD方法

       RSVD是矩阵分解模型的一种,可用于MCCF问题。RSVD使用下式来估计用户对项目的评分

        其中,表示训练集中用户对所有项目的评分均值,表示训练集中项目获得的评分均值,表示训练集中所有评分的均值,为用户的偏置项,为项目的偏置项,分别对应了用户和项目的潜在因子向量。模型中的参数通过最小化损失函数学得。损失函数定义如下:

       基于此,本文提出了LDA-RSVD方法,其主要思想是使用LDA模型学习的参数对RSVD中的参数进行约束。具体地说,该方法改进了RSVD的损失函数,新的损失函数为:

       作者认为,若将每个潜在因子看作一个“主题”,则LDA模型中学得的可被认为是潜在因子空间中的特殊点,而这些特殊点包含了评价矩阵中的全局信息,因此使用来约束,使用来约束,有可能能够提升模型的表现。  

       LDA-RSVD方法首先利用上节中提及的LDA模型学习参数,再使用SGD(随机梯度下降)方法来优化参数。当参数优化结束后,便可对进行估计。

03

实验结果

        作者在MovieLens100K、MovieLens1M和Netflix这三个真实数据集上展开实验,并使用五折交叉验证评估结果。

3.1 LDA-OCCF

       对于OCCF问题,作者在三个数据集上进行预处理,保留了评分大于3的评价信息并记为“用户-项目”矩阵中的正例,以模拟单类环境。使用精确率(Precision)、召回率(Recall)和MAP(Mean Average Precision)作为评价指标,与经典的推荐算法PopRank、BPR和GBPR进行对比。

       实验结果表明,LDA-OCCF在三个数据集上的精确率、召回率和MAP表现均优于其他三种方法。从运行速度上看,PopRank最快而GBPR最慢;LDA-OCCF运行时间长于BPR和PopRank,但与GBPR相比有显著优势。

3.2 LDA-RSVD

      在MovieLens100K、MovieLens1M和Netflix1M(从Netflix中随机采样约1%的数据,包含45,625位用户在1700部电影上的936,772条评价)数据集上测试,使用MAE(Mean Absolute Error)作为评价指标,与传统RSVD算法进行对比。

       实验结果表明,随着主题数目的增加,两种算法的MAE均在下降,而LDA-RSVD在大部分主题数目下的表现均优于RSVD。

       同时,作者在相同训练集下抽取不同大小的子集来测试不同稀疏度矩阵下LDA-RSVD模型中超参数的影响:随着训练数据的增加,最优结果对应值也增加。该结果表明LDA学习的参数在稠密数据集上对RSVD优化效果更好。

注:本文为该读者的阅读笔记,未经原论文作者和FCS期刊审读。仅供广大读者参考。

了解原论文内容,请点击下方链接:

基于LDA模型的协同过滤  2018,12(3):571-581




Frontiers of Computer Science



Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号

登录查看更多
3

相关内容

基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
基于深度学习的多标签生成研究进展
专知会员服务
140+阅读 · 2020年4月25日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
专知会员服务
86+阅读 · 2020年1月20日
推荐系统中的矩阵分解技术
AINLP
9+阅读 · 2018年12月24日
深度学习之路——论文阅读
专知
11+阅读 · 2018年9月29日
【推荐系统】详解基于内容的推荐算法
产业智能官
23+阅读 · 2018年1月11日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
17+阅读 · 2017年11月5日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2018年9月6日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员