【推荐系统】融合 MF 和 RNN 的电影推荐系统

会员服务 ·

【推荐系统】融合 MF 和 RNN 的电影推荐系统

2018 年 1 月 4 日 产业智能官

来源：杨敏 PaperWeekly

全标题：Leveraging Long and Short-term Information in Context-aware movie recommendation －融合 MF 和 RNN 的电影推荐系统

介绍本期的工作之前，先打一个紧急的招生广告，我们组现还有一个博士名额，想要来中科院深圳先进技术研究院读博的同学可以联系我，主要做一些关于自然语言处理、数据挖掘、计算机视觉、机器学习等的工作，报名结束日期是 2018 年 1 月 12 号。

联系方式和主页地址如下：

邮箱：min.yang@siat.ac.cn

主页：www.minyang.me

随着互联网技术飞速发展，在线数据越来越庞大，如何帮助用户从海量数据中找到所需信息是急需解决的问题。

个性化推荐系统能够有效的解决信息过载问题，推荐系统根据用户的历史偏好和约束为用户提供排序的个性化物品（item）推荐列表，更精准的推荐系统可以提升和改善用户体验。所推荐的物品可以包括电影、书籍、餐厅、新闻条目等等。

本文主要针对电影推荐做了深入研究，但所提出的方法可以很方便地迁移到其他物品推荐中。

目前，协同过滤技术已成为最广泛采用的推荐技术，已经被广泛应用到了很多商业系统中，比较著名的有 Amazon、Netflix、淘宝等。

传统的基于协同过滤的推荐系统是认为用户偏好和电影属性都是静态的，但他们实质是随着用时间的推移而缓慢变化的。例如，一个电影的受欢迎程度可能由外部事件（如获得奥斯卡奖）所改变。

除了对时间演化进行建模的需求外，协同过滤方法使用了未来的评分来评估当前的喜好，这一定程度违背了统计分析中的因果关系。

另一方面，随着深度学习应用的爆发式发展，特别是在计算机视觉、自然语言处理和语音方面的进展，基于深度学习的推荐系统越来越引发大家的关注。循环神经网络（RNN）理论上能够有效地对用户偏好和物品属性的动态性进行建模，基于当前的趋势，预测未来的行为。

为了有效地利用传统协同过滤推荐技术（i.e., 矩阵分解）和深度学习方法（i.e., 循环神经网络）各自的优点，捕获用户和电影之间的长期（全局）和短期（局部）关联，本文主要研究和探索矩阵分解（Matrix Factorization, MF）和循环神经网络（Recurrent Neural Network, RNN）在推荐系统上的互补性。

该项工作已经发表在 arXiv 上，更多细节可以点击本文底部的“阅读原文”查看原论文，我们会在论文发表后放出代码。

我们提出一种 LSIC 模型（Leveraging Long and Short-term Information in Context-aware movie recommendation），具体框架如下：

LSIC 模型采用了生成对抗网络（GAN）框架将基于 MF 和 RNN 的模型融合，同时捕获用户长期偏好和短期会话信息，从而最大限度地提高推荐系统的最终性能，达到 state-of-the-art 的效果。我们介绍了 4 种方法来融合 MF 模型和 RNN 模型，具体如下：

LSIC-V1: Hard 机制

采用简单的求和方法混合 MF 和 RNN 预测的分数，如图 Figure2(a)，公式如下：

LSIC-V2

我们通过预训练 MF 得到用户和视频的 latent factors，再初始化用户 LSTM 和视频 LSTM 的隐状态，如图 Figure2(b)。

LSIC-V3

我们对 LSIC-V2 进展扩展，采样 MF 得到的 latent factors 作为两个 LSTM 的 static context vectors 加到每个时刻 t 的输入中，如图 Figure2(c)。

LSIC-V4

我们采用 attention 机制动态调整 MF 和 RNN 的融合方式，如图 Figure2(d)，公式如下：

生成对抗网络：判别器尝试区别视频的真假，它是来自训练集中的高分视频还是生成器生成出来的伪高分视频。生成器尝试去生成真高分视频来欺骗判别器。具体细节请参考【5】，我们以这篇工作为基础做了许多改进，比如通过 GAN 有效结合用户长期偏好的短期会话的模型等。

生成器：（Figure1 的左边）类似于条件 GAN，我们的生成器 G 输入用户偏好数据和时刻 t，给用户 i 生成推荐列表，具体公式如下：

其中，M 是视频集合，m_(g, t) 是在 t 时刻生成的视频 index。

判别器（Figure1 的右边）我们采用 Siamese 网络构建判别器 D，并且以 pair-wise 的方法融合长短时模型。具体来说，判别器 D 有两个对称的 point-wise 网络，她们共享参数并且采用 pair-wise 的损失函数来更新。具体的目标函数如下：

U 是用户集合，u_i 是用户 i，m_+ 是高分视频，m__ 是随机从视频集合中采样出的低分视频，最后我们采用 hinge 损失函数来优化判别器 D，具体公式如下：

强化学习：由于视频采样的过程是离散的，不能采用标准的 GAN 公式来优化。因此，我们采用 policy gradient 来优化生成器 G，使得 G 能生成高收益的推荐列表来欺骗判别器 D。具体来说，推导如下：

数据集：为了验证我们模型的有效性，我们在两个广泛使用的数据集进行测试 Movielens100K 和 Netflix，为了评估模型的鲁棒性，我们分别进行了 3 个月 Netflix 和全集 Netflix 的实验，数据集细节如下：

对比算法：在实验中，我们和一些 baseline 和 state-of-art 进行对比：BPR [1]，PRFM [2]，LambdaFM [3]，RRN [4]，IRGAN [5]。

实验结果：

此外，我们还进行了 case study 的分析。我们从 Netflix 数据集中随机选择两个用户并为其生成推荐列表。LSIC 模型可以更有效的进行推荐。例如，用户“8003”的电影“9 Souls”从排名5（LambdaFM）增加到排名 1（LSIC-V4）。

总结：我们提出了一种新颖的基于生成对抗网络的推荐系统，采用强化学习动态调整历史长期偏好和短期会话的模型，此外，我们加入了封面图片特征进一步提升系统性能，最后在两个数据集上做到 state-of-art 的性能。

参考文献

1. Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars SchmidtThieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. InProceedings of the twenty- fth conference on uncertainty in articial intelligence. AUAI Press, 452–461.

2. Runwei Qiang, Feng Liang, and Jianwu Yang. 2013. Exploiting ranking factorization machines for microblog retrieval. In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 1783–1788.

3. Fajie Yuan, Guibing Guo, Joemon M Jose, Long Chen, Haitao Yu, and Weinan Zhang. 2016. Lambdafm: learning optimal ranking with factorization machines using lambda surrogates. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 227–236.

4. Chao-YuanWu, Amr Ahmed, Alex Beutel, Alexander J Smola, and How Jing. 2017. Recurrent recommender networks. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. ACM, 495–503.

5. Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu, Benyou Wang, Peng Zhang, and Dell Zhang. 2017. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. 515–524.

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。