【重庆大学】基于生成式对抗网络的推荐系统:一个问题驱动的视角

2020 年 3 月 16 日 专知




摘要




推荐系统(RS)在人们网络生活的各个方面都扮演着非常重要的角色。许多公司利用简历来帮助用户发现新的和喜欢的项目。尽管取得了实践上的成功,这些系统仍然存在两个主要问题:数据噪声和数据稀疏性。近年来,生成对抗网络(GANs)在许多领域都取得了成功,因为它们的巨大的潜力来学习复杂的实际数据分布,他们还提供新的RS手段缓解上述问题。特别是由于对抗的学习,可以通过添加对抗的扰动或迫使鉴别器分辨信息和不提供信息的数据的样本处理数据噪声的问题。为了减少数据稀疏性问题,基于GAN的模型能够复制user-item交互的真实分布,并增加可用数据。为了全面了解这些基于GAN的推荐模型,我们对这些研究进行了回顾,并从问题驱动的角度对它们进行了组织。具体地,我们提出了这些模型的分类,并详细地描述了它们及其优点。最后,我们详细阐述了几个有待解决的问题,并对基于GAN的RS的当前趋势进行了扩展。




介绍




由于基于Internet的技术的快速发展,Internet上的数据呈指数级增长,导致每个Internet用户都被大量的信息所淹没[93,74,19]。特别是,当谈到网上购物,人们不得不面对一个两难的境地,当有大量的选择,他们不能轻易做出选择。作为一个有效的工具来解决信息过载,推荐系统(RS),已广泛应用于各种在线生活的场景,包括电子商务(如亚马逊和淘宝),音乐播放(例如,潘多拉和QQ音乐),电影推荐(如Netflix和iQiyi)和新闻推荐(例如,BBC新闻和标题)。

 

然而,尽管RS具有广泛性和良好的性能,但仍然存在两个主要问题:数据噪声和数据稀疏性。数据噪声作为一种外在问题,来源于训练数据中不经意的、恶意的、无信息性的反馈[20,23,31]。具体来说,用户有时会点击他们不感兴趣的产品,偶然错误的反馈可能会降低RS的准确性。此外,一些恶意的个人资料或反馈有时会被注入RS,目的是操纵推荐结果。此外,在训练过程中,两两学习中随机选取的负样本往往是无信息样本,会误导推荐模型,降低其性能。与数据噪声问题相比,数据稀疏性是一个内在的问题,因为每个用户通常只消耗可用项的一小部分是不可避免的[96]。现有RS通常依赖于历史交互信息用户和项目之间捕捉用户的兴趣。当大量数据丢失时,很容易看到RS不能满足用户的准确推荐[33,56]。如果没有应对机制,这些问题往往会导致RS失败,导致较差的用户体验。

 

许多研究人员已经意识到这两个问题所造成的有害影响,并努力减少不利因素。为了缓解数据噪声的影响,这些研究者提出了各种方法来缓解数据噪声问题[44,86,8,63,35]。其中,Zhang等[94]利用隐马尔可夫模型分析攻击用户的偏好序列,然后利用层次聚类将攻击用户与评级行为区分开来。Bag等人提出了一种利用 Bhattacharya系数修正随机噪声的方法以及自我矛盾的概念。Yu等人[88]为了区分信息更丰富的item和未观察到的item。通过将整个训练数据建模为异构信息网络来获取更多的用户信息嵌入表示。为了获得有用的负样本信息,一些研究者采用了大众偏见的方法抽样策略[13,22]。虽然上述方法已经注意到传统模型容易被识别在训练数据中不可避免的噪声,他们只能从一个特定的角度来分辨明显的噪音,他们没有做到不断更新他们的能力,以区分噪声从未观察到的项目。另一方面,很多方法,所有关于数据相似度的问题,都是为了整合辅助信息,如社会关系[76,103,48,84],用户点评[17,47,42],条目内容[12],外部知识图谱[75,77]。虽然辅助信息的整合是有帮助的,但这些方法仍然存在稀疏性问题,只使用少量的观测数据来学习最终的特征,它们不能完全表征数据的复杂性。

 

最近,生成式对抗网络(GANs)引领了深度学习领域的一场革命[102,18],如图像和音频[97,50,41,78]。GANs的原理是在生成器和鉴别器之间玩一个对抗极大极小的游戏。该生成器主要学习实际观测数据的分布,然后使用生成的样本来混淆鉴别器。鉴别器需要判断输入样本是否来自生成器。

 

GANs在其他领域的成功应用为RS树立了良好的榜样,一些开创性的工作已经在这一领域迈出了第一步[82]。根据近三年与RS相关的顶级会议的统计,基于GAN的推荐模型的论文数量逐年增加,如表1所示。在2018年基于GANs的信息检索(IR)模型研讨会上, 研究人员[95]指出基于GAN的RS将成为一个热点领域的RS。原因在于,GANs的想法带来了新的机会抵抗噪声数据的干扰和缓解数据稀疏。在现有的基于GAN的RS中,为了减少RS对数据的干扰,一些研究人员验证了加入对抗扰动的有效性,并在目标函数中引入极小极大对策来减少数据噪声。与此同时,其他研究人员试图使用鉴别器以一种对抗性的方式从未观察到的例子中区分出信息更丰富的样本。为了缓解数据稀疏性问题,现有的基于GANs的推荐模型不仅可以通过增加user-item交互信息直接生成用户偏好,还可以通过增加辅助信息合成用户偏好,可以显著降低数据稀疏性。

然而,据我们所知,很少有系统的综述对基于GAN的推荐模型的现有研究和当前进展进行了充分的分析。为此,本文从问题驱动的角度对这些模型进行了研究和回顾。具体来说,我们将现有的研究分为两个部分,第一部分是对降低数据噪声的不利影响的方法的综述,另一部分是对缓解数据稀疏性问题的模型的综述。希望本文的研究能够为后续GAN基RS的研究奠定基础。综上所述,本篇综述的主要贡献如下:

  • 为了全面了解最新的基于GAN的推荐模型,我们对这些研究进行了回顾,并从问题驱动的角度对它们进行了组织。


  • 我们从两个角度系统地分析了基于GAN的RS数据噪声问题的缓解模型:(1)缓解随机和恶意噪声;(2)根据数据噪声的来源,将未提供信息的样本与未观察到的样本进行区分


  • 我们从两个角度系统地分析了基于GAN的RS数据噪声问题的缓解模型:(1)缓解随机和恶意噪声;(2)根据数据噪声的来源,将未提供信息的样本与未观察到的样本进行区分


  • 我们从两个方面对利用GANs来缓解数据稀疏性问题的推荐模型进行了系统的综述:(1)通过增加交互信息来生成用户偏好的模型;(2)通过增加辅助信息来合成用户偏好的模型。

     

  • 我们详细阐述了几个有待解决的问题,并扩展了基于GAN的RS的当前趋势。

  

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RSGAN” 就可以获取基于生成式对抗网络的推荐系统:一个问题驱动的视角》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

在数据库中,稀疏数据是指在二维表中含有大量空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息。
南洋理工大学,深度学习推荐系统综述
专知会员服务
174+阅读 · 2019年10月14日
生成式对抗网络GAN异常检测
专知会员服务
115+阅读 · 2019年10月13日
【ASSIA】第12期智能自动化学科前沿讲习班——推荐系统
中国自动化学会
12+阅读 · 2019年10月11日
推荐系统资源(文献、工具、框架)整理
专知
17+阅读 · 2019年2月4日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Python开发者
11+阅读 · 2018年9月27日
2018年最全的推荐系统干货(ECCV、CVPR、AAAI、ICML)
计算机视觉战队
11+阅读 · 2018年9月13日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
12+阅读 · 2018年1月28日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关VIP内容
相关资讯
【ASSIA】第12期智能自动化学科前沿讲习班——推荐系统
中国自动化学会
12+阅读 · 2019年10月11日
推荐系统资源(文献、工具、框架)整理
专知
17+阅读 · 2019年2月4日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Python开发者
11+阅读 · 2018年9月27日
2018年最全的推荐系统干货(ECCV、CVPR、AAAI、ICML)
计算机视觉战队
11+阅读 · 2018年9月13日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员