摘要—推荐系统(Recommender Systems,RS)已成为信息过滤和内容个性化的关键技术。传统的推荐技术主要依赖于对用户与物品之间的交互建模,以及对内容特征的任务特定建模。随着基础模型(Foundation Models, FMs)的出现,如 GPT、LLaMA 和 CLIP 等在海量数据上训练的大规模模型,推荐范式正发生深刻变革。 本文综述了基础模型在推荐系统中的应用(FM4RecSys),并从三个范式层面系统探讨了其整合方式:(1)基于特征的表示增强,(2)生成式推荐方法,以及(3)具备智能体能力的交互式推荐系统。我们首先回顾了推荐系统的数据基础,从传统的显式/隐式反馈到多模态内容源。随后,介绍了基础模型在表示学习、自然语言理解和多模态推理方面的能力及其在推荐情境中的应用。 本综述的核心部分详细讨论了基础模型如何在三个范式下增强推荐系统:在特征驱动范式中提升特征表示,在生成式范式中直接生成推荐内容,在智能体范式中支持自主推荐代理与模拟器。接着,我们探讨了基础模型在多种推荐任务中的应用,包括Top-N推荐、序列推荐、零样本/小样本推荐、对话式推荐及新物品/内容生成。 通过对最新研究成果的分析,我们总结了基础模型已带来的关键机遇(如更强的泛化能力、更优的解释性与推理能力)以及当前面临的挑战(如跨领域泛化、可解释性、公平性及多模态整合等)。最后,本文提出了下一代FM4RecSys的研究方向与技术挑战,如多模态推荐智能体、检索增强框架、面向长用户序列的持续学习,以及效率与成本问题等。 本综述不仅回顾了当前最前沿的方法,也对“特征驱动”“生成式”与“智能体”三大范式的权衡进行了深入分析,并指出了亟待解决的关键问题与未来研究方向。 关键词—基础模型,推荐系统,多模态表示,综述。 https://arxiv.org/pdf/2504.16420
推荐系统(Recommender Systems,RS)在电商、社交媒体、医疗健康和教育等多个领域中发挥着至关重要的作用 [1],[2]。其核心目标是通过捕捉用户偏好、物品特征及上下文信息,提供个性化内容推荐。在过去十年中,受益于深度学习架构的发展以及大规模用户行为数据的积累,该领域取得了显著进展。然而,传统推荐系统在捕捉细粒度用户偏好、处理冷启动问题以及提供透明且具上下文的解释方面仍面临挑战。这些瓶颈限制了依赖领域特定模型或小规模模型提供准确、多样推荐的能力。 与此同时,基础模型(Foundation Models, FMs)在自然语言处理、计算机视觉和多模态任务中取得了突破性进展 [3]。近期,FMs 正在重塑推荐系统架构 —— 显著提升性能、启用新型用户交互方式,并展现出捕捉复杂用户-物品关系的强大潜力,同时具备在更广泛推荐任务中泛化的能力。具体而言,Foundation Models for Recommender Systems(FM4RecSys)指的是通过预训练与推荐数据集结合的方式,捕捉用户偏好、物品特征和上下文变量的丰富表示,从而提升推荐任务中的个性化程度与预测准确性。 与传统方法依赖精心设计的特征或狭窄的架构不同,FMs 借助大规模语料的广泛预训练,具备更强的泛化能力,能整合多种信号(文本、图像、音频、知识图谱等),从而提供更丰富的用户与物品表示,有效缓解数据稀疏和冷启动问题。除提升预测性能外,FMs 还赋予推荐系统新能力,包括自然语言解释、交互式对话接口,乃至具备智能决策能力的 agentic 系统。特别是在 agentic 框架下,FMs 被用于自主规划、推理和适应动态环境,结合用户反馈与实时上下文实现迭代更新。 接下来,我们将深入探讨当前研究将 FMs 融入推荐系统的动因,以加深对 FMs 如何应用及其在不同推荐任务中影响的理解。
我们总结了推动 FM4RecSys 研究快速发展的主要动因,以全面理解其发展与应用背后的推动力: 增强的泛化能力。 基础模型天生擅长从大规模数据中学习复杂模式,因此在面对新颖数据时具备更强的泛化能力 [5]。在推荐系统中,这意味着 FMs 能更准确地预测用户行为,尤其在数据稀疏或新物品场景(如零样本/小样本推荐 [6]–[8])中表现尤为突出。通过对用户偏好与物品属性的零样本/小样本推断,FMs 即使在缺乏丰富交互记录的情况下,也能提供有效推荐。 提升的用户体验。 FMs 为推荐系统带来了交互范式上的变革。例如在对话式推荐(CRS)中,传统系统大多依赖预设对话模板 [9],[10],限制了交互的灵活性。而 FMs 支持更加动态、开放的自然语言对话,大幅提升用户交互的自然度与参与感。用户可以通过对话表达偏好、提问并接收个性化推荐。 更强的解释与推理能力。 与传统推荐系统依赖用户评论或简单协同行为(如共同购买)生成浅层解释不同,FMs 可基于常识与上下文生成更连贯、逻辑更完整的解释 [11],[12]。通过整合用户偏好、历史交互和物品特性,FMs 能为推荐提供更具说服力的解释,尤其在医疗等高风险领域有助于促进负责任决策 [13]。 尽管传统推荐系统长期受限于特征刚性与数据稀疏问题,但基础模型的出现显著提升了泛化能力。然而,如何在真实场景中实现这些潜力仍面临挑战,如实时适应性、计算效率与系统兼容性等。因此,我们从三大范式与多个推荐任务视角,全面、批判性地评估 FM4RecSys 的机遇与限制。
FMs 如何被集成进推荐系统?我们识别出当前研究中三种主要的集成范式:特征驱动(Feature-Based)、生成式(Generative)与智能体范式(Agentic)。三种范式在推荐流程中的角色由被动特征提供者逐步演变为主动决策者。如图1所示,三种范式具有各自代表性特征与典型应用。
该范式将基础模型作为特征提取器,用于生成高质量的用户、物品或交互嵌入。例如,文本基础模型(如 BERT)[14] 用于将物品描述或用户评论编码为语义向量,视觉-语言模型(如 CLIP)[15] 用于对齐多模态特征,实现跨领域推荐。该范式通常将 FMs 用作辅助模块,与推荐主逻辑解耦。
该范式充分利用 FMs 的生成能力(如 GPT),直接以文本输出形式生成推荐结果 [16]。包括生成个性化解释 [17]、虚拟内容(如广告文案、产品设计)或通过自回归方式预测用户偏好。此类方法的挑战在于控制性与对齐性,即如何在流畅性与相关性之间取得平衡。
新兴的智能体范式将推荐系统重新构想为由 FMs 驱动的自治智能体 [18]。这些智能体能通过自然语言与用户动态互动,推理长期偏好,并执行动作(如主动提问、多轮规划)以精化推荐。与静态模型不同,agentic 系统具备目标导向行为,能使用工具(如搜索引擎、数据库)并结合反馈循环实现自适应。 虽然前两种范式已在推荐准确性与多样性上取得进展,智能体范式则代表着更具前瞻性的范式转变:向主动、可解释、以人为本的系统演化。其独特优势包括: * 动态适应:实时更新用户画像,有效缓解冷启动与数据稀疏问题; * 多模态上下文建模:统一处理文本、语音与图像,捕捉细腻偏好(如解析用户截图); * 伦理对齐:结合宪法式AI等方法 [19],融入人类价值观与规则,提升公平性与可解释性。
LLM智能体(如 AutoGPT、Meta 的 CICERO [20])和检索增强生成(RAG)等新范式的快速发展,进一步验证了该范式的可行性。
当前关于 FM4RecSys 的研究热度持续攀升,已有多篇综述探讨该交叉领域的部分视角。如 Liu 等 [21] 关注语言建模范式的训练策略与目标,Wu 等 [22] 从判别式与生成式视角分析 LLM4Rec,Lin 等 [4] 提出从“位置”与“方式”两个维度适配 LLMs,Fan 等 [23] 总结了LLMs在推荐任务中的预训练、微调与提示工程等技术路径。Lin 等 [24] 针对生成式推荐方法做了任务层级的梳理。 区别与贡献: 与上述综述相比,我们的综述具有更广泛的视角: * 跨模态视角:不仅关注 LLMs,还系统覆盖视觉与多模态基础模型; * 系统分类法:构建“数据源—范式—任务—挑战”统一框架; * 三大范式对照:提出并细化特征驱动、生成式与智能体三大范式; * 任务全面覆盖:横跨Top-N排序、序列推荐、对话推荐等多任务; * 新趋势探讨:深入未解问题与未来机遇,推动 FM4RecSys 向前发展。
我们共收集并分析了150余篇与 FM4RecSys 相关的最新论文,覆盖 ICLR、NeurIPS、WWW、WSDM、SIGIR、KDD、ACL、EMNLP、NAACL、RecSys、CIKM、TOIS、TORS、TKDE 等顶级会议与期刊。搜索关键词包括:大语言模型推荐系统、生成式推荐、多模态推荐、智能体推荐等。 本文贡献如下:
提供了基础模型在推荐系统中应用的全面综述,建立清晰分类体系; 1. 系统总结当前前沿研究成果,帮助读者快速理解与上手该领域; 1. 深入探讨挑战与未来方向,推动 FM4RecSys 创新与落地。
第2节 探讨推荐系统数据特性,强调多模态数据的重要性; * 第3节 介绍基础模型的演进及其适用于推荐任务的优劣; * 第4节 分析 FMs 在推荐场景中的表示学习技术; * 第5节 总结 FM 与推荐系统集成的策略与范式; * 第6节 探讨各类推荐任务的应用实例与挑战; * 第7节 总结实证研究中观察到的影响与潜力; * 第8节 深入讨论仍待解决的问题与未来研究方向; * 第9节 总结基础模型对推荐系统发展的关键贡献。