论文阅读笔记之《基于LDA模型的协同过滤》

2018 年 6 月 13 日 FCS

点击上面蓝字

关注我

人工智能（AI）的浪潮正在席转全球，众多热门研究话题也蜂拥而至，我们FCS期刊关于人工智能研究的论文受到的关注也更多。今天，FCS给大家分享一篇人工智能专栏论文——《Exploit latent Dirichlet allocation for collaborative filtering（基于LDA模型的协同过滤）》的读者给我们带来的论文阅读笔记。如果您也同样对这篇论文感兴趣，或者也想把您阅读我们期刊论文的感受分享给更多的小伙伴，欢迎在文后留言或者与我们联系。

原文信息：

Exploit latent Dirichlet allocation for collaborative filtering

Frontiers of Computer Science，2018,12(3)： 571-581

Zhoujun LI, Haijun ZHANG, Senzhang WANG, Feiran HUANG, Zhenping LI,Jianshe ZHOU

长按识别二维码，阅读文章详情

引言

基于协同过滤的推荐系统利用“用户-项目”评分矩阵来预测用户对特定项目的兴趣程度，并基于此为用户推荐其在未来可能感兴趣的新项目。目前，协同过滤推荐系统的研究聚焦于两大主要问题，即OCCF(one-class collaborative filtering，单类协同过滤)和MCCF(multi-class collaborative filtering，多类协同过滤)。在OCCF中，"用户-项目"评分矩阵内的值只可能为1或缺失。当用户u对项目i给出正反馈时，例如社交网络中的“关注”或购物网站中的“收藏”和“购买”，记元素。在MCCF中，“用户-项目”评分矩阵中的元素可能有多种取值，代表了用户对项目的喜好程度，例如点评网站中的星级评分。

当前，针对OCCF问题的方法大致可分为三类：pointwise methods（逐点方法）、pairwise methods（成对方法）和content-based methods（基于内容的方法），但这三类方法都假设“用户-项目”评分矩阵中的缺失值为负例，这可能导致新的数据偏移问题。而基于内容的方法往往需要获取项目的文本描述信息，当这类信息缺失时，算法的应用效果将被限制。

本文将LDA模型应用于协同过滤推荐系统中。其主要思想是将“用户-项目”评价矩阵直接作为文本分析中的“语料库”，使用LDA模型来抽取出“用户-项目”矩阵中的隐含主题信息。基于此，本文提出了适用于OCCF问题的LDAOCCF方法和适用于MCCF问题的LDA-RSVD方法。本文提出的LDA协同过滤方法不需要项目的文本描述信息，也不带有“所有缺失值均为负例”的假设。实验结果表明，本文提出的方法在OCCF和MCCF问题上均达到了更好的效果。

基于LDA模型的协同过滤

2.1 LDA-OCCF：面向OCCF的LDA

LDA（Latent Dirichlet Allocation）是一种非监督学习技术，能够从文本语料库中识别出潜藏的主题（topic）信息。在分析前，首先将语料库转换为一个矩阵，矩阵的行代表语料库内的每篇文档，列代表语料库中出现的所有单词，矩阵中的元素表示对应单词在文档中的出现次数。随后LDA对语料库进行建模，生成两种分布：“文档-主题”分布，描述主题出现在文档中的概率；“主题-单词”分布，描述单词出现在主题中的概率。通过分析文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

应用到推荐系统中，若将“用户”看作“文档”，将“项目”看作“单词”，将“用户-项目”评分看作单词在文档中的出现频率，则“用户-项目”评分矩阵可作为”语料库“直接用于LDA建模。用户的隐含兴趣点可由主题的分布表示，而每个主题由项目的分布表示。据此就能够计算出用户对项目的喜好程度。

具体地说，LDA-OCCF方法由以下两个步骤组成：

2.1.1 学习“用户-主题”分布和“主题-项目”分布

该方法的生成过程定义如下：

(1)对每个用户，取样生成主题分布

(2)对每个主题，取样生成项目分布

(3)对“用户-项目”矩阵中每个观测值对应的二元组

a. 生成主题

b. 生成项目

其中，表示参数为的狄利克雷分布，表示参数为的多项分布，表示用户评价过的项目对应的主题。LDA-OCCF使用Gibbs采样来估计参数和。

2.1. 2 预测用户对项目的喜好程度

该方法使用下式来计算用户对项目的喜好程度：

其中，表示对用户来说项目出现的概率，为用户对主题的分布，为主题对项目的分布。

与之前的方法相比，LDA-OCCF有以下优点：

(1)评分矩阵中的缺失值仅表示“未知”，不再假设为负例。

(2)无需项目的文本描述信息。

(3)该模型学得的参数为概率分布，在防止过拟合方面更具鲁棒性。

2.2LDA-RSVD：LDA优化的RSVD方法

RSVD是矩阵分解模型的一种，可用于MCCF问题。RSVD使用下式来估计用户对项目的评分：

其中，表示训练集中用户对所有项目的评分均值，表示训练集中项目获得的评分均值，表示训练集中所有评分的均值，为用户的偏置项，为项目的偏置项，和分别对应了用户和项目的潜在因子向量。模型中的参数通过最小化损失函数学得。损失函数定义如下：

基于此，本文提出了LDA-RSVD方法，其主要思想是使用LDA模型学习的参数和对RSVD中的参数进行约束。具体地说，该方法改进了RSVD的损失函数，新的损失函数为：

作者认为，若将每个潜在因子看作一个“主题”，则LDA模型中学得的与可被认为是潜在因子空间中的特殊点，而这些特殊点包含了评价矩阵中的全局信息，因此使用来约束，使用来约束，有可能能够提升模型的表现。

LDA-RSVD方法首先利用上节中提及的LDA模型学习参数和，再使用SGD（随机梯度下降）方法来优化参数。当参数优化结束后，便可对进行估计。

实验结果

作者在MovieLens100K、MovieLens1M和Netflix这三个真实数据集上展开实验，并使用五折交叉验证评估结果。

3.1 LDA-OCCF

对于OCCF问题，作者在三个数据集上进行预处理，保留了评分大于3的评价信息并记为“用户-项目”矩阵中的正例，以模拟单类环境。使用精确率（Precision）、召回率（Recall）和MAP（Mean Average Precision）作为评价指标，与经典的推荐算法PopRank、BPR和GBPR进行对比。

实验结果表明，LDA-OCCF在三个数据集上的精确率、召回率和MAP表现均优于其他三种方法。从运行速度上看，PopRank最快而GBPR最慢；LDA-OCCF运行时间长于BPR和PopRank，但与GBPR相比有显著优势。

3.2 LDA-RSVD

在MovieLens100K、MovieLens1M和Netflix1M（从Netflix中随机采样约1%的数据，包含45,625位用户在1700部电影上的936,772条评价）数据集上测试，使用MAE（Mean Absolute Error）作为评价指标，与传统RSVD算法进行对比。

实验结果表明，随着主题数目的增加，两种算法的MAE均在下降，而LDA-RSVD在大部分主题数目下的表现均优于RSVD。

同时，作者在相同训练集下抽取不同大小的子集来测试不同稀疏度矩阵下LDA-RSVD模型中超参数的影响：随着训练数据的增加，最优结果对应值也增加。该结果表明LDA学习的参数在稠密数据集上对RSVD优化效果更好。

注：本文为该读者的阅读笔记，未经原论文作者和FCS期刊审读。仅供广大读者参考。

了解原论文内容，请点击下方链接：

基于LDA模型的协同过滤 2018,12(3)：571-581

Frontiers of Computer Science

期刊封面_icon.jpg Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士，执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”。