摘要 — 从快速扩展的互联网信息中获取有价值的数据已经成为一个重要的课题,而推荐系统作为一种广泛使用且有效的工具,帮助用户发现感兴趣的项目。推荐系统的本质在于其能够预测用户对各种项目的评分或偏好,并基于历史交互数据和公开信息推荐最相关的项目。随着包括文本、图像、视频和音频在内的多种多媒体服务的出现,人类可以通过多种模态感知世界。因此,一个能够理解和解释不同模态数据的推荐系统能够更有效地参考个体偏好。多模态推荐系统(MRS)不仅捕捉跨多种模态的隐式交互信息,还具有揭示这些模态之间隐藏关系的潜力。本文综述的主要目标是全面回顾MRS的最新研究进展,并从技术角度分析这些模型。具体而言,我们旨在总结MRS的总体过程和主要挑战。然后,我们通过将现有的MRS模型分类为四个关键领域:特征提取、编码器、多模态融合和损失函数,来介绍这些模型。最后,我们进一步讨论了发展和增强MRS的潜在未来方向。本综述为MRS领域的研究人员和实践者提供了全面的指南,提供了MRS技术的现状见解,并确定了未来研究的方向。我们希望能够为开发更为复杂和有效的多模态推荐系统做出贡献。欲了解更多详情,请访问我们的开源仓库:https://github.com/JinfengXu/Awesome-Multimodal-Recommender-Systems。 关键词 — 信息系统,数据挖掘,多媒体信息系统,多模态推荐系统。 I. 引言

互联网的快速扩展导致信息量的激增,使得用户越来越难以识别哪些信息是有用的和相关的。这种现象被称为信息过载,主要源于在数字时代几乎无法控制信息的生成和传播。因此,迫切需要强大的过滤机制,以优先处理相关内容,从而促进高效的沟通和决策过程。推荐系统应运而生,它通过根据不同领域的特定需求个性化内容过滤,已证明能够有效缓解信息过载的负面影响。这些系统在商业应用中尤其成功,如电子商务、广告和社交媒体,在这些领域中,个性化对于用户参与和满意度至关重要[1]–[4]。 推荐系统的主要功能是预测用户对各种项目的评分或偏好,并根据历史交互数据和公开信息推荐最可能和相关的项目。然而,传统的基于ID的推荐方法,基于用户倾向于选择与其之前喜欢的项目相似的原则,往往严重依赖于足够的用户-项目交互。尽管取得了一些成功,推荐系统仍面临两个主要挑战:数据稀疏性和冷启动问题。数据稀疏性源于用户与产品之间的交互数据天然稀疏,导致难以准确预测用户的偏好。这种稀疏性可能导致不可靠的推荐,尤其是在具有大量项目目录但相对较少用户交互的系统中。冷启动问题则发生在传统推荐系统模型过度依赖ID嵌入时,这些模型难以为没有历史交互数据的新用户或新产品提供令人满意的预测。这个问题在动态环境中尤为突出,因为新项目和新用户会持续引入。 为了缓解这些问题,推荐系统中越来越多地集成了多模态信息。多模态推荐系统(MRS)利用文本、图像、视频和音频等辅助多模态信息,补充用户与项目之间的历史交互。这种方法通过提供更丰富、更全面的用户偏好理解,提升了推荐性能。推荐系统的核心目标是迎合人们的偏好,而由于人类对世界的感知本质上是多模态的,整合多种模态信息能够更细致地捕捉偏好,从而提供更准确和个性化的推荐,进而提高用户的满意度和参与度。

多模态推荐研究正在迅速增长和发展。为了帮助研究人员快速理解MRS并支持社区的发展,迫切需要从技术角度进行全面回顾。现有工作[5]尝试从技术角度对MRS进行分类,但随着该领域的快速发展,一些分类已显得过时。因此,我们旨在收集近期的研究工作,提出一个更为最新的分类框架,帮助研究人员掌握MRS社区的最新进展。本综述将全面概述当前MRS技术,突出新兴趋势,并识别未来的研究与开发方向。通过系统地审视MRS领域的最新进展,我们希望为提升推荐系统在多模态数字世界中的能力和应用做出贡献。 A. 相关论文的检索策略

我们通过系统地检索和分析该领域顶级会议和期刊中的文章,进行了一项关于多模态推荐系统(MRS)的全面调研。我们涉及的会议和期刊包括但不限于MM、KDD、WWW、SIGIR、AAAI、ICLR、IJCAI、CIKM、WSDM、TMM、TKDE、TPAMI和INFFUS。这个严格的选择过程确保了我们的调研涵盖了MRS领域最具影响力和前沿的研究成果。 我们的检索方法分为三个 distinct 阶段:

  • 高质量文章的收集:在初始阶段,我们从上述顶级会议和期刊中收集了文章。该选择基于来源的声誉和影响因子,确保仅包含高质量和同行评审的研究。
  • 过滤与后处理:收集阶段后,我们仔细过滤并后处理这些文章。该步骤包括去除重复项,评估每篇文章与MRS主题的相关性,并确保仅保留最相关的研究。这一严格的过滤过程对于维持调研的焦点和质量至关重要。
  • 技术分析与综合:在最后阶段,我们对每篇文章所采用的技术进行了详细分析。分析内容包括方法论、模型、算法的使用,以及这些方法背后的动机。我们还回顾了每篇文章引用的相关工作,以提供对MRS领域发展和当前趋势的全面理解。通过综合这些信息,我们总结了该领域的关键技术和动机。

通过这种系统化的方法,我们的调研提供了MRS领域最新技术的深入概述,突出了该领域的重要进展、新兴趋势及未来潜在的研究方向,为研究人员和从业者提供了宝贵的指导。 B. 与相关综述的比较

此前已经有一些关于推荐系统的综述,涉及这些系统的一般方面或特定的部分内容。然而,没有任何综述提供对近年来的SOTA MRS工作中所使用的过程和技术的全面合理的分类,这正是当前该领域亟需的。MRS的目标是通过将多模态信息引入推荐系统,增强提取用户与项目之间更深层次、更准确交互的能力。本文讨论了现有相关综述的主要贡献和局限性,并突出了我们工作中的独特贡献,如表 I 所示。 Zhang 等人[6]提供了基于深度学习的推荐系统进展的全景视图,调查了未来的方向和挑战,包括联合表示学习、可解释性、更深的模型和机器推理。然而,他们的工作缺乏对现有SOTA技术的细粒度介绍。Deldjoo 等人[8]提供了一个综合性综述,并按模态进行了粗粒度分类,包括音频、视觉和文本等常见特征,以及运动、元数据和语义取向等特殊特征。然而,这一分类较为粗略,缺乏精确性。 Jannach 等人[9]探讨了对话式推荐系统(CRS)的领域,提供了现有技术的分类综述,但其工作未整合多模态信息。Deldjoo 等人[1]讨论了基于内容的MRS的SOTA方法,调查了挑战和历史演变,包括增加推荐多样性和新颖性、提供透明性和解释、实现上下文感知、提高可扩展性和效率,以及缓解冷启动问题。然而,他们的重点主要放在基于内容的MRS上,而非涵盖整个MRS领域。 之前的工作[7],[10]集中于推荐系统中的图结构。Guo 等人[7]提供了一个细粒度的综述,分析了利用知识图谱(KG)来增强推荐结果的方法,将方法分为基于嵌入的、基于路径的和统一的。Wu 等人[10]提供了关于图神经网络(GNN)技术在推荐系统中的综合性综述,指出了多个限制和未来的方向,包括多样性和不确定性表示、可扩展性、动态性、感受野、自监督学习、鲁棒性、隐私保护方法和公平性。 Deldjoo 等人[2]提供了一个关于时尚领域推荐系统的全面综述,分类了市场中的任务,并概述了时尚领域特有的评估目标。Meng 等人[11]对个性化新闻推荐进行了深入分析,讨论了技术,并列出了多个局限性和未来方向,包括隐私保护、假新闻缓解和去偏见。Zhou 等人[12]总结了MRS中所采用的主要方法,并提出了一个通用框架,用于常见的MRS模型。尽管他们的工作提供了对以往方法的全面回顾,但他们提出的MRS管道缺乏详细阐述。最近,Liu 等人[5]也总结了MRS中使用的主要方法,并提供了一个常见框架。然而,这项工作从过程的角度划分MRS,而不是专注于技术发展,这限制了读者对该领域研究方向的全面理解。 总之,我们的工作旨在填补这些空白,提供一个更加详细和最新的MRS过程和技术分类,从而推动对这个快速发展的领域的理解和发展。 我们的调研专注于从技术角度对MRS进行精细分类,以为研究人员提供有关MRS技术发展的见解。最后,我们讨论了多模态推荐系统发展的潜在未来方向。 C. 本综述的大纲

本综述的结构安排如下:

  • 第 I 节:引言

简要概述推荐系统的历史发展,强调利用多模态信息提升推荐的意义。随后,我们详细介绍了本文的检索策略,确保了研究的质量。此外,我们还与先前的综述进行对比分析,并介绍了本综述的结构和主要贡献。

  • 第 II 节:技术分类

我们提出了多模态推荐系统的最新技术分类框架,并详细讨论了各种技术的应用。

  • 第 III 节:新兴趋势

总结当前领域中的新兴趋势,突出在多模态推荐中取得的重要进展。

  • 第 IV 节:挑战与未来方向

讨论当前技术面临的主要挑战,并提出未来的研究方向。

  • 第 V 节:结论

总结本综述的主要内容,并提供对未来研究的展望。

II. 技术分类法

根据当前多模态推荐系统(MRS)的最新研究成果,我们将MRS中的技术总结并组织为四个部分,如图2所示。具体而言,这四个部分分别是:特征提取、编码器、多模态融合和损失函数。我们将简要概述这些部分,并在后续章节中详细讨论。 A. 特征提取

不同的应用场景涉及不同类型的模态信息,从而导致不同的数据集和各自独特的多模态特征。然而,大多数数据集通常至少包括三种主要模态:交互、视觉和文本。例如,像Amazon、Netflix和TikTok这样的大型平台提供了富含图像和文本信息的数据集,覆盖了视觉和文本模态。特别是,TikTok的数据集常常还包含其他模态,如音频和视频[13]–[15]。此外,某些专门领域的数据集可能包含稀有的模态。例如,时尚和医疗保健等热门领域的数据集通常包括多种专业模态。 特征提取是一个关键过程,旨在通过嵌入技术表示低维、可解释的通道特征。对于不同的模态,采用不同的预提取方法。对于视觉模态,使用如ResNet [16]和ViT [17]这样的模型来提取特征;对于文本模态,使用BERT [18]和Sentence-Transformer [19]等模型来推导特征;音频特征通常使用如LSTM [20]和GRU [21]这样的模型提取。 在第III节中,我们将详细介绍特征提取,深入探讨每种模态及其对应的提取技术。 B. 编码器

编码器利用从多模态信息和历史交互数据中提取的特征来推断用户偏好表示,并随后用于预测用户-项目交互,从而进行推荐。与传统的推荐系统类似,多模态推荐的编码器可以大致分为基于矩阵分解(MF [22])和基于图卷积网络(Graph [23])的方法。基于MF的方法以其简单有效著称,而基于图的方法利用用户-项目交互中的二分图结构来学习更高阶的邻居特征。 随着MRS的快速发展,提出并采用了更为复杂的编码器,全面利用丰富的多模态信息,从而提高推荐性能。这些先进的编码器能够整合多样的多模态数据,进而提供更准确、个性化的推荐。 在第III节中,我们将详细介绍这两种编码器的发展及其背后的动机,包括如何通过MF方法高效捕捉用户-项目交互,以及基于图的方法如何通过整合复杂的图结构来扩展这一能力。通过研究这些方法,我们旨在阐明每种方法的优缺点,以及它们对MRS社区的贡献。 C. 多模态融合

多模态融合是MRS中的一个关键研究方向。近期研究表明,模态融合的时机可能显著影响推荐效果。多模态融合涉及在不同阶段整合来自不同模态的信息,这一时机对实现最佳性能至关重要。

  • 早期融合:早期融合是指在编码器处理之前将不同模态的特征进行组合。这种方法能够有效地揭示模态之间隐藏的关系,因为整合后的多模态特征使编码器能够学习更丰富和更高质量的表示。早期融合能够捕捉文本、图像和音频等不同数据类型之间复杂的相互作用,从而更全面地理解用户偏好。早期融合的技术通常包括连接、注意力机制和基于神经网络的整合方法,旨在创建统一的多模态数据表示。
  • 后期融合:后期融合是在各个模态特定的编码器处理完数据后,将每种模态的分数或预测结果进行合并。这种方法侧重于利用每个模态特定模型的优势,然后结合它们的输出进行最终推荐。后期融合在某些模态比其他模态更具信息性或可靠的情况下尤为有效。通过推迟融合过程,后期融合允许在预测阶段之后更有针对性地提取特定模态信息,从而提高整体推荐准确性。

第V节中,我们将根据融合时机对现有工作进行详细分类,区分为早期融合和后期融合方法。这一分类将全面了解不同融合策略如何影响MRS系统的性能。我们将探讨早期融合和后期融合中采用的各种方法和技术,分析它们的优缺点和应用场景。 D. 损失函数

MRS利用的损失函数大致可以分为两大部分:主任务和辅助任务。主任务是监督学习,通常涉及明确定义的标签来指导模型的学习过程。这些任务确保模型基于标签数据学习做出准确的预测。辅助任务则是自监督学习(SSL)[24]。自监督学习通过利用数据自身的内在结构或模式生成监督信号,而不是仅仅依赖外部标签数据。这一方法使得推荐系统能够有效地利用未标注数据,在数据稀疏的情况下仍能提取有意义的表示并做出准确预测。 监督学习可以进一步细分为逐点损失对比损失

  • 逐点损失:逐点损失通过比较每个单独项目的预测得分与其实际标签来计算。常见的逐点损失函数包括均方误差(MSE)[25]和交叉熵损失(CE)[26],用于直接评估单项预测的准确性。
  • 对比损失:对比损失侧重于项目之间的相对排序。它评估模型根据用户偏好正确排列每对项目的能力。常见的对比损失函数包括贝叶斯个性化排序(BPR)[27]和铰链损失(Hinge Loss)[28],旨在优化项目的排名顺序而非其绝对得分。

自监督学习可以分为基于特征和基于结构的两种方法:

  • 基于特征的SSL:该方法通过创建辅助任务来预测或重建数据的某些特征。例如,模型可能被训练预测项目或用户的缺失特征,从而学习到更强大的表示。
  • 基于结构的SSL:该方法利用数据的结构特性,例如用户与项目之间的关系和交互。例如,基于图的方法可能会利用节点相似度或子图模式来生成监督信号,从而增强模型捕捉复杂依赖关系和交互的能力。

第VI节中,我们将详细介绍这些损失函数,探讨每种损失类型背后的动机、实现细节以及它们对多模态推荐系统性能的影响。通过分析监督学习和自监督学习策略,我们旨在提供对不同损失函数如何贡献于多模态推荐有效性的全面理解。

成为VIP会员查看完整内容
1

相关内容

基于深度生成模型的个性化图像生成:十年综述
专知会员服务
17+阅读 · 2月19日
定制化大型语言模型的图检索增强生成综述
专知会员服务
30+阅读 · 1月28日
基础模型驱动的智能体服务部署:综述
专知会员服务
50+阅读 · 2024年12月19日
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
【IJCAI2024教程】大语言模型(LLMs)时代的推荐系统
专知会员服务
50+阅读 · 2024年8月5日
大语言模型视角下的智能规划方法综述
专知会员服务
123+阅读 · 2024年4月20日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
【紫冬精选】国内近三年模式分类研究现状综述
中国科学院自动化研究所
13+阅读 · 2018年4月3日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
434+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于深度生成模型的个性化图像生成:十年综述
专知会员服务
17+阅读 · 2月19日
定制化大型语言模型的图检索增强生成综述
专知会员服务
30+阅读 · 1月28日
基础模型驱动的智能体服务部署:综述
专知会员服务
50+阅读 · 2024年12月19日
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
【IJCAI2024教程】大语言模型(LLMs)时代的推荐系统
专知会员服务
50+阅读 · 2024年8月5日
大语言模型视角下的智能规划方法综述
专知会员服务
123+阅读 · 2024年4月20日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
相关资讯
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
【紫冬精选】国内近三年模式分类研究现状综述
中国科学院自动化研究所
13+阅读 · 2018年4月3日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员