生成模型是一类能够通过学习并从其统计分布中采样来创建新数据实例的AI模型。近年来,随着生成对抗网络(GANs)、变分自编码器(VAEs)以及基于Transformer的架构如GPT等方法的发展,这些模型在机器学习中获得了广泛关注。生成模型在多个领域都有应用,如图像生成、文本合成和音乐创作。在推荐系统中,生成模型被称为生成推荐系统(Gen-RecSys),通过生成结构化输出、基于文本的交互以及多媒体内容,提升了推荐的准确性和多样性。通过利用这些能力,Gen-RecSys可以提供更个性化、引人入胜和动态的用户体验,从而扩大AI在电子商务、媒体等领域的应用角色。 我们的书超越了现有的文献,提供了对生成模型及其应用的全面理解,特别是对深度生成模型(DGMs)及其分类的深入探讨。我们引入了一种分类法,将DGMs分为三类:ID驱动模型、大型语言模型(LLMs)和多模态模型。每一类别在其各自的研究领域内解决了独特的技术和架构进展。这种分类法使研究人员能够轻松地在对话式AI和多模态内容生成等领域中的Gen-RecSys发展中进行导航。此外,我们还探讨了生成模型的影响和潜在风险,强调了健全评估框架的重要性。
生成模型(GM)使得人工智能应用的构建不仅可以基于数据做出决策,还能够通过学习数据集的统计分布并从中采样“生成”新的数据实例。利用生成技术生成新的数据实例极具潜力,已经在许多人工智能(AI)领域得到了应用,如图像生成(Harshvardhan et al., 2020)、文本合成(Li et al., 2018c)和音乐创作(Mittal et al., 2021;Yang and Lerch, 2020)。最近,随着生成对抗网络(GANs)(Goodfellow et al., 2014)、变分自编码器(VAEs)(Kingma and Welling, 2013)、扩散模型(Sohl-Dickstein et al., 2015;Ho et al., 2020)以及基于Transformers架构的GPT和其他大语言模型(LLMs)(Wei et al., 2022a;Bubeck et al., 2023)的引入,生成模型在机器学习和深度学习中得到了广泛关注。这些建模方法促成了显著的突破或应用,如Saharia et al.(2022)中的照片级真实图像生成(扩散模型)或Liu et al.(2023b)中基于自然语言处理的对话机器人(Transformers)。这些进展属于深度生成模型(DGMs)的范畴,结合了传统的生成概率模型和深度神经网络(DNNs),捕捉数据的潜在分布。DGMs在生成高质量合成数据、提升自然语言理解、以及展现上下文学习和少样本泛化的能力方面表现出色(Wei et al., 2022a;Bubeck et al., 2023)。DGMs的核心优势在于其能够对训练数据的分布进行建模和采样,并用于各种推理任务。 人工智能的另一个重要领域是推荐系统(RS)。这些系统可以嵌入到电子商务网站中,与在线用户互动,为他们推荐来自通常庞大目录中精选和个性化的物品子集。推荐系统可以帮助用户应对信息过载,支持更有效的决策过程,也能帮助市场促进销售并发掘目录中新的或不太流行的商品。 生成模型已被用于推荐系统的开发中,揭示了物品消费中的关系和模式,这些模式可以很好地泛化到新数据中。这增强了系统提供准确、多样且个性化推荐的能力。在本书中,结合生成AI和传统推荐系统思想的推荐系统被称为生成推荐系统(Gen-RecSys)(Deldjoo et al., 2024a)。Gen-RecSys可以根据其生成的输出类型进行区分:
实际上,我们对Gen-RecSys的定义相当广泛,任何结合生成AI和推荐系统的系统都属于这一类别。事实上,Gen-RecSys的应用目标与传统(非生成)推荐系统非常相似,即通过使用能够生成输出的新模型,而不仅仅是精确过滤已有的商品目录信息,来实现更加个性化、多样化、可控且吸引用户的推荐体验。
在本书中,我们将探讨生成模型增强或改进推荐系统的各种方式,概述如下。读者可以参考第1.7节,了解生成模型的更多优势和机会。
增强核心推荐系统任务:生成模型有潜力通过概率视角或整合知识丰富的外部数据源(如LLMs)来改善top-k推荐的质量。因此,生成模型可以在数据稀缺的场景中解决挑战,如冷启动问题(Chae et al., 2019;Yin et al., 2023a;Zhou et al., 2024;Wang et al., 2022e)。例如,像VAEs(Kingma and Welling, 2013)这样的生成模型通过将用户-物品交互视为结构化潜在空间内的概率分布,提升了top-k推荐的效果(参见第4章)。这些模型在推荐质量上已被证明优于可比的非生成协同过滤模型,如矩阵分解(MF)和神经矩阵分解(NeuMF)。后者使用固定向量来表示用户-物品交互,往往无法完全捕捉用户偏好的复杂性。 另一个例子是大型语言模型(LLMs),它们可以通过解释用户偏好的细微自然语言描述,生成高度个性化的推荐(Geng et al., 2022;Sanner et al., 2023;Zhou et al., 2024)。此外,Rajput等人(2024)的新兴研究引入了生成检索的概念,其中生成模型通过预测目标物品的标识符来提升低交互历史物品的检索性能,从而改善冷启动场景中的推荐。 解决传统推荐系统未能有效应对的能力:生成模型能够应对传统(非生成)系统声称可以管理但实际上并未有效处理的任务,通过增强用户-系统的交互性、灵活性并引入创新的设计概念。例如,生成模型能够通过实时适应用户偏好的变化,提供更有效的个性化互动。在对话推荐场景中,非生成模型(可以说)仍然无法支持有效的用户/系统对话。一个典型例子是Wang et al.(2023c)的GeneRec系统,它能够根据用户指令生成个性化的微视频,并将现有内容重新设计为各种风格和主题,提供高度定制化的用户体验。除了对话场景之外,生成模型的另一个有前景的应用是跨领域推荐。事实上,正如Petruzzelli等人(2024)所讨论的那样,LLMs可以克服数据稀疏问题,这个问题之前通过跨领域推荐系统得到解决,但尚未产生实际的工业应用。LLMs能够更有效地利用其已有的知识来跨越不同领域,生成个性化的跨域推荐。 此外,传统推荐系统优先考虑预测准确性,而忽视了透明性。相比之下,生成模型可以直接生成解释,例如推荐的动机和反事实场景,说明用户采取哪些行动可以获得不同的推荐。例如,通过利用LLMs,这些模型可以更容易地支持实时批评(Amoukou和Brunel, 2022;Antognini和Faltings, 2021),允许用户提供即时影响推荐的反馈。例如,Antognini和Faltings(2021)介绍了批评解释型VAE,使用用户生成的关键词和物品偏好提供动态、个性化的解释,并根据用户的批评实时调整。 引入全新的能力:生成模型为推荐系统引入了突破性的功能,如按需内容创作和整页生成。借助这些模型,推荐系统可以根据用户偏好生成新物品,或为增强互动生成连贯的多物品页面(参见第3章)。例如,系统可以与用户进行对话,了解其偏好,生成一个新的物品,如个性化的微视频,或推荐一个相关的现有物品。此外,多模态能力使系统能够理解并生成多种格式的内容,如文本、图像和视频。例如,用户可以提供一个视觉输入,如产品图片,并附加文本修改(如“类似但为红色的连衣裙”),系统可以创建修改后的物品或推荐最接近的匹配物品(参见第5章)。LLMs通过生成说服性且具有上下文意识的互动,进一步增强了这种体验,使推荐更具吸引力(参见第4章)。
DGMs可以广泛应用于推荐系统的以下操作模式中:
本专著是关于使用生成模型的推荐系统的中级指南,面向研究人员、从业者、学生和行业专业人士。读者需要具备推荐系统和机器学习基本概念的理解(如协同过滤、监督学习),以及自然语言处理(NLP)、信息检索(IR)和多模态学习的核心概念(如密集检索、对比学习、变分自编码器),这将有助于理解技术章节(第4至5章)。为帮助具备不同专业水平的读者,第2章提供了一些基础定义和结果——从经典模型到生成模型及其应用——应当对大多数读者是易于理解的,因此也适合教学用途。
尽管如此,本书主要是为那些希望了解生成推荐系统前沿技术的研究人员所编写的。尽管一些技术还在不断演变,本书旨在捕捉该领域的最新进展。建议读者按章节顺序阅读,以便于顺畅理解,除了第2章,若读者已熟悉基础概念,可以跳过此章。然而,高级读者也可以根据特定兴趣,独立阅读各章。
近年来的多篇综述探讨了推荐系统中生成模型的某些方面,例如 Deldjoo 等人(2021年)提出的基于GAN的推荐系统,Li 等人(2023年g)研究的大型语言模型(LLMs)的训练策略,以及 Wu 等人(2023年a)讨论的LLMs作为推荐引擎。此外,Lin 等人(2023年a)详细描述了LLMs在推荐任务中的适应性,而 Fan 等人(2023年b)则概述了LLMs,强调了其预训练和微调策略。在 Huang 等人(2024年a)中,作者探讨了基础模型的应用,Wang 等人(2023年c)引入了 GeneRec,一种利用AI生成器的下一代推荐系统。尽管上述综述提供了重要的信息,其范围仅限于特定方法论的焦点,如模型类别或训练范式(如LLMs、FMs)或特定模型(如GANs)。
本书提供了更广泛的视角,涵盖了生成推荐系统(Gen-RecSys)的各个方面,并给出了实现生成推荐系统的建议,如图1.1和图1.2所示。特别是,我们从系统设计(第3、4、5章)、影响与风险评估(第6、7章)的角度讨论了这些系统,并重点介绍了众多任务和应用。
在本节中,我们通过图1.2,详细描述了生成模型对推荐系统的具体优势。内容围绕三个主题展开:目标与应用场景、多样化输出以及模型和数据增强。
预测能力
生成模型能够显著增强推荐系统在捕获和利用数据方面的能力。本书探讨了多种方法,从变分自编码器(VAEs)等概率方法——通过建模底层数据分布以提高准确性——到预训练模型如LLMs和多模态基础模型(见第3至5章)。这些模型在优化复杂输出方面表现出色,包括通过直接学习项目间关系生成整个推荐列表或页面。LLMs通过利用多轮对话个性化推荐,能够根据用户反馈和自然语言表达的偏好不断优化推荐。此外,多模态生成学习能够对齐并整合多种数据类型,在视觉驱动场景中(如美食推荐、时尚、电商等)提供更丰富、个性化的推荐。 生成模型,尤其是LLMs,还具有快速适应和个性化不同场景推荐的强大能力。例如,在电商场景中,LLM可以基于用户的近期浏览历史或实时聊天输入,快速调整产品推荐,而无需进行大量的训练。如果用户最初搜索“夏季连衣裙”,随后又转向“正式晚礼服”,LLM可以无缝调整其推荐,提供这两个类别中相关的产品选项。 生成能力
生成模型的能力不仅限于推荐预测,它们还能提供更丰富、互动性更强的用户体验。这些模型可以个性化单个商品,创建捆绑推荐或整体推荐,还能提供如虚拟试穿或情境可视化等逼真的预览,如第5章所述。它们还极大丰富了交互式和会话式推荐,允许动态的评审、偏好协商以及多模态交互对话,无缝整合多种用户输入和反馈(第4章)。此外,这些模型还能生成个性化、事实性的可视化解释,帮助用户理解并信任推荐系统。 支持功能
生成模型还能通过个性化消息和互动,提高用户的参与度和转化率。这些模型赋予用户控制权,使用户能够轻松修改其偏好。
除了上述应用场景之外,另一种需要考虑的角度是生成模型的输出特性。生成模型扩展了传统(非生成)推荐系统的能力,能够生成更为复杂、多模态、互动性强的输出。例如,在个性化广告中(见第5章和图1.2),生成模型能够跨多种媒体格式生成高度定制化的广告内容,而传统系统则受限于数据不足和模态限制。此外,在多轮会话推荐中(第4、5章),生成模型凭借动态、实时交互能力表现出色,这使得它们在数据稀疏情况下依然能够提供富有参与感和个性化的用户体验。
将生成模型引入推荐系统的一个关键原因在于其在模型和数据增强方面的技术优势。在模型增强方面,生成模型通过改进系统捕获和建模用户-项目交互的方式,提供了更好的潜在表示。例如,VAEs利用概率方法生成更具表现力的表示,既提高了推荐的准确性,也增强了系统在应对数据稀疏场景中的能力。这些模型还在正则化和降噪数据方面发挥作用,这对于处理现实世界中噪声较大的数据集至关重要,从而确保生成的推荐具有鲁棒性且具有上下文相关性。 在数据增强方面,生成模型可以扩充现有的数据集,填补缺失数据或生成合成交互,从而增强训练过程。如图1.2所示,这些模型能够直接增强训练数据,使其更加多样和丰富,从而提高项目预测的准确性,改进用户-项目交互预测的评分功能,特别是在冷启动场景中。此外,生成检索技术允许生成更复杂的输出结构,如捆绑推荐和页面推荐,提升了整体推荐体验。
我们可以将本书的组织结构大致分为以下几部分:介绍性背景主题(第2章)、系统设计章节(涵盖第3、4、5章中的各种模型和技术)以及与评估、风险和危害相关的内容(第6、7章)。 * 第2章:推荐模型基础
概述了传统和生成推荐模型,介绍了区分式和生成式方法的关键概念和区别。该章强调了生成模型在创建复杂输出(如个性化内容、自然语言解释、全新项目设计)中的不断扩展的角色,并介绍了生成模型的基础任务,为后续高级主题铺平了道路。 * 第3章:基于ID的模型
讨论了使用用户-项目交互数据来增强推荐的生成模型。主题包括模型架构如VAEs、GANs和扩散模型。 * 第4章:LLM驱动模型
探讨了如何利用大型语言模型(LLMs)进行自然语言推荐、偏好引导和解释生成。 * 第5章:多模态模型
重点介绍了整合多种数据模态(文本、图像、音频)以提供更丰富、个性化推荐的模型。 * 第6章:评估方法
介绍了生成推荐系统的特定评估指标和基准,解决了输出复杂性和系统性能等挑战。 * 第7章:社会危害与风险
分析了生成模型的伦理问题,如偏见放大、错误信息和隐私问题。为了帮助读者进一步理解这些生成模型的实际应用,我们在表1.2中总结了一些选定的案例研究。