推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐系统通过隐式交互(如购买和点击)对用户偏好和物品属性进行建模，帮助用户发现其感兴趣的物品，已经成为一种流行而有效的工具。人类通过处理模态信号(如音频、文本和图像)来感知世界，这启发了研究人员建立一个可以理解和解释不同模态数据的推荐系统。这些模型可以捕获不同模态之间的隐藏关系，并可能恢复单模态方法和隐式交互无法捕获的互补信息。**本综述的目的是对最近关于多模态推荐的研究工作进行全面的回顾。具体来说，它展示了每个步骤中常用技术的清晰流程，并按使用的方法对模型进行了分类。**此外，还设计了一个代码框架，以帮助该领域的新研究人员理解原理和技术，并轻松运行SOTA模型。我们的框架位于:https://github.com/enoche/MMRec。

1. 引言

**随着社会的发展，大量的物品和信息被展示在网络上，用户很难判断哪些是有用的，并从中挑选出自己喜欢的。**解决了[34]推荐系统出现时的信息过载问题。它根据历史交互数据和公开的物品信息(如点击量和销量)，预测用户对所有物品的评分或偏好，并推荐用户可能选择的最可能和最相关的物品。推荐算法可分为协同过滤、基于内容的过滤和混合推荐系统[43]。协同过滤基于分析和收集用户的历史行为数据，其中包括历史交互(如点击、浏览、购买)和用户偏好(如评分)。基于内容的过滤根据用户的用户信息和项目信息推荐产品。物品用关键字描述，用户的个人资料将表达该用户喜欢的物品的类型。这种方法的主要思想是，用户可能会选择他们之前喜欢的相似物品。混合方法结合了协同过滤和基于内容的过滤技术，以获得更好的结果。 **传统的推荐方法[16,68,76,78]存在不足，它们需要用户和物品之间大量的交互才能做出更准确的推荐。**交互较少甚至没有交互的用户和物品会影响推荐的准确性。为了缓解数据稀疏问题[75,77]和冷启动问题，多模态信息被引入到推荐系统中。多模态推荐利用辅助的多模态信息来补充历史的用户-物品交互，从而提高推荐性能。多模态模型能够表示和发现不同模态之间的隐藏关系，并可能恢复单模态方法和隐式交互无法捕获的互补信息。这些技能对于自然语言处理[45]来说也是必要的，以便在各种人工智能工作中实现人类水平的理解。多媒体数据不仅反映了用户和物品之间的关系，而且反映了用户在不同模态下的偏好。对于相同的模态，数据可以反映不同项目的相似度和语义。为了将多模态信息融合到推荐系统中，目前的方法是从不同模态中提取特征，然后将模态融合结果作为辅助信息或物品表示。VBPR[15]是第一个考虑将视觉特征引入推荐系统的模型，它将视觉嵌入与id嵌入连接起来作为项目的表示。[53, 58, 59]利用基于GCN的方法来产生每个模态的表示，然后将它们融合在一起作为最终表示。除了融合模态表示外，还将基于知识图谱的模态边信息引入多模态推荐[46]中。多模态推荐引入了不同的技术，试图为用户和物品找到更好的表示，以实现更准确的推荐结果。

**如今，在线分享平台是常用的，如时尚、新闻、短视频和音乐推荐平台。这些流行的在线平台包含大量的多模态信息，驱动用户的选择。**由于人们普遍使用这些蕴含大量多模态信息的平台，因此有必要采用多模态推荐来学习更准确的用户偏好。与传统推荐不同，这些应用利用了物品的视频帧、音轨和物品描述等多模态内容信息。MMGCN[59]、MGAT[49]、DualGNN[53]和SLMRec[48]是利用视频内部的描述、字幕、音频和帧对用户对微视频的多模态偏好进行建模的微视频推荐模型。由于时尚推荐涉及的特征复杂且具有主观性，构建高效的推荐系统面临困难。[7, 19]旨在利用多模态信息来克服这个问题。以往的新闻推荐侧重于标题和文本的单模态信息，而忽略了图像等视觉信息。[61, 63]尝试使用多模态来提高推荐性能。

**由于上文讨论的优点和必要性，多模态推荐系统被广泛使用。也没有调研讨论用于多模态推荐的技术。**为了给研究人员提供参考，本文介绍了多模态推荐系统的概况，并根据所使用的方法对综述论文进行了分类。本调研的目的是通过展示一个清晰的流程以及每个步骤中使用的技术，来介绍多模态推荐系统的工作原理。本文旨在指导新的研究人员了解多模态推荐系统中常用的原则和技术。此外，还提供了一个已开发的代码框架，该框架包含已实现的具有预提取多模态特征的SOTA模型，使得研究人员可以基于该框架高效地运行SOTA模型或开发自己的模型。

本综述的主要内容是多模态推荐的研究综述。本文工作的目的是总结该领域使用的主要方法，并强调多模态内容的重要性。此外，我们将提供一个通用框架，其中包含常用模型的代码实现，这可以帮助初学者快速运行他们的数据或在此框架中实现模型。我们将按照以下方式组织综述: * 介绍 * 多模态推荐流程 * 特征提取; * 模型分类; * 模态融合 * 度量和优化; * 数据集和实验结果 * 挑战和未来研究方向 * 结论

在介绍了这次综述的组织情况后，我们总结了我们的主要贡献如下。

我们提出了多模态推荐系统(MMRec)的理论综述，概述了学习和利用模态信息的各种策略，并提供了模型使用的技术以及每个MMRec模型如何工作的全面解释。
我们介绍了推荐系统如何利用多模态信息的主要步骤，并展示了MMRec的流程。讨论了如何选择合适的数据集、特征提取和优化方法，为读者开发MMRec系统提供了明确的指导。
我们通过在四个公共数据集上进行大量实验，验证了SOTA多模态推荐模型的有效性和效率。同时，讨论影响模型性能的关键因素(例如，不同的模态信息，不同的数据分割方法)。

此外，我们创建了一个开源框架MMRec[74] 1，可用于实现本综述中提到的MMRec模型的基线。读者也可以使用这个代码框架来开发自己的模型。我们希望这个框架能帮助初学者更容易地理解多模式推荐模型的工作原理，并方便地开发自己的模型，只考虑如何设计模型，其他步骤由框架完成。此外，我们还创建了一个开源存储库，其中包括所有被调研的论文和单模态模型。

2. 多模态推荐流程

多模态推荐系统通常遵循图1中的步骤。下面描述了每个步骤的细节。多模态推荐系统旨在通过利用多模态特征来学习用户和物品的信息表示。第一步是从原始数据中提取模态特征。在获得模态特征后，您可以选择在将它们输入到多模态模型之前进行融合，在模型的中间层进行融合，或融合多模态模型的输出。采用不同的技术来学习用户-物品之间的关系，并利用多模态信息，通过匹配目标函数来提高推荐精度。