【重庆大学】基于生成式对抗网络的推荐系统:一个问题驱动的视角

2020 年 3 月 16 日 专知

摘要

推荐系统(RS)在人们网络生活的各个方面都扮演着非常重要的角色。许多公司利用简历来帮助用户发现新的和喜欢的项目。尽管取得了实践上的成功，这些系统仍然存在两个主要问题:数据噪声和数据稀疏性。近年来,生成对抗网络(GANs)在许多领域都取得了成功,因为它们的巨大的潜力来学习复杂的实际数据分布,他们还提供新的RS手段缓解上述问题。特别是由于对抗的学习,可以通过添加对抗的扰动或迫使鉴别器分辨信息和不提供信息的数据的样本处理数据噪声的问题。为了减少数据稀疏性问题，基于GAN的模型能够复制user-item交互的真实分布，并增加可用数据。为了全面了解这些基于GAN的推荐模型，我们对这些研究进行了回顾，并从问题驱动的角度对它们进行了组织。具体地，我们提出了这些模型的分类，并详细地描述了它们及其优点。最后，我们详细阐述了几个有待解决的问题，并对基于GAN的RS的当前趋势进行了扩展。

介绍

由于基于Internet的技术的快速发展，Internet上的数据呈指数级增长，导致每个Internet用户都被大量的信息所淹没[93,74,19]。特别是，当谈到网上购物，人们不得不面对一个两难的境地，当有大量的选择，他们不能轻易做出选择。作为一个有效的工具来解决信息过载,推荐系统(RS),已广泛应用于各种在线生活的场景,包括电子商务(如亚马逊和淘宝),音乐播放(例如,潘多拉和QQ音乐),电影推荐(如Netflix和iQiyi)和新闻推荐(例如,BBC新闻和标题)。

然而，尽管RS具有广泛性和良好的性能，但仍然存在两个主要问题:数据噪声和数据稀疏性。数据噪声作为一种外在问题，来源于训练数据中不经意的、恶意的、无信息性的反馈[20,23,31]。具体来说，用户有时会点击他们不感兴趣的产品，偶然错误的反馈可能会降低RS的准确性。此外，一些恶意的个人资料或反馈有时会被注入RS，目的是操纵推荐结果。此外，在训练过程中，两两学习中随机选取的负样本往往是无信息样本，会误导推荐模型，降低其性能。与数据噪声问题相比，数据稀疏性是一个内在的问题，因为每个用户通常只消耗可用项的一小部分是不可避免的[96]。现有RS通常依赖于历史交互信息用户和项目之间捕捉用户的兴趣。当大量数据丢失时，很容易看到RS不能满足用户的准确推荐[33,56]。如果没有应对机制，这些问题往往会导致RS失败，导致较差的用户体验。

许多研究人员已经意识到这两个问题所造成的有害影响，并努力减少不利因素。为了缓解数据噪声的影响，这些研究者提出了各种方法来缓解数据噪声问题[44,86,8,63,35]。其中，Zhang等[94]利用隐马尔可夫模型分析攻击用户的偏好序列，然后利用层次聚类将攻击用户与评级行为区分开来。Bag等人提出了一种利用 Bhattacharya系数修正随机噪声的方法以及自我矛盾的概念。Yu等人[88]为了区分信息更丰富的item和未观察到的item。通过将整个训练数据建模为异构信息网络来获取更多的用户信息嵌入表示。为了获得有用的负样本信息，一些研究者采用了大众偏见的方法抽样策略[13,22]。虽然上述方法已经注意到传统模型容易被识别在训练数据中不可避免的噪声，他们只能从一个特定的角度来分辨明显的噪音，他们没有做到不断更新他们的能力，以区分噪声从未观察到的项目。另一方面，很多方法，所有关于数据相似度的问题，都是为了整合辅助信息，如社会关系[76,103,48,84]，用户点评[17,47,42]，条目内容[12]，外部知识图谱[75,77]。虽然辅助信息的整合是有帮助的，但这些方法仍然存在稀疏性问题，只使用少量的观测数据来学习最终的特征，它们不能完全表征数据的复杂性。

最近，生成式对抗网络(GANs)引领了深度学习领域的一场革命[102,18]，如图像和音频[97,50,41,78]。GANs的原理是在生成器和鉴别器之间玩一个对抗极大极小的游戏。该生成器主要学习实际观测数据的分布，然后使用生成的样本来混淆鉴别器。鉴别器需要判断输入样本是否来自生成器。

GANs在其他领域的成功应用为RS树立了良好的榜样，一些开创性的工作已经在这一领域迈出了第一步[82]。根据近三年与RS相关的顶级会议的统计，基于GAN的推荐模型的论文数量逐年增加，如表1所示。在2018年基于GANs的信息检索(IR)模型研讨会上, 研究人员[95]指出基于GAN的RS将成为一个热点领域的RS。原因在于,GANs的想法带来了新的机会抵抗噪声数据的干扰和缓解数据稀疏。在现有的基于GAN的RS中，为了减少RS对数据的干扰，一些研究人员验证了加入对抗扰动的有效性，并在目标函数中引入极小极大对策来减少数据噪声。与此同时，其他研究人员试图使用鉴别器以一种对抗性的方式从未观察到的例子中区分出信息更丰富的样本。为了缓解数据稀疏性问题，现有的基于GANs的推荐模型不仅可以通过增加user-item交互信息直接生成用户偏好，还可以通过增加辅助信息合成用户偏好，可以显著降低数据稀疏性。

然而，据我们所知，很少有系统的综述对基于GAN的推荐模型的现有研究和当前进展进行了充分的分析。为此，本文从问题驱动的角度对这些模型进行了研究和回顾。具体来说，我们将现有的研究分为两个部分，第一部分是对降低数据噪声的不利影响的方法的综述，另一部分是对缓解数据稀疏性问题的模型的综述。希望本文的研究能够为后续GAN基RS的研究奠定基础。综上所述，本篇综述的主要贡献如下：

为了全面了解最新的基于GAN的推荐模型，我们对这些研究进行了回顾，并从问题驱动的角度对它们进行了组织。

我们从两个角度系统地分析了基于GAN的RS数据噪声问题的缓解模型:(1)缓解随机和恶意噪声;(2)根据数据噪声的来源，将未提供信息的样本与未观察到的样本进行区分
我们从两个角度系统地分析了基于GAN的RS数据噪声问题的缓解模型:(1)缓解随机和恶意噪声;(2)根据数据噪声的来源，将未提供信息的样本与未观察到的样本进行区分
我们从两个方面对利用GANs来缓解数据稀疏性问题的推荐模型进行了系统的综述:(1)通过增加交互信息来生成用户偏好的模型;(2)通过增加辅助信息来合成用户偏好的模型。
我们详细阐述了几个有待解决的问题，并扩展了基于GAN的RS的当前趋势。

专知便捷查看