大型语言模型(LLMs)正迅速从被动的文本生成引擎演化为具备计划、记忆、调用外部工具以及彼此协作能力的智能体实体。本文以观点论文的形式探讨了此类LLM智能体(及其组成的社会)如何重塑推荐系统的设计空间。
我们提出了一套统一的形式化框架,该框架:(i)将单个智能体建模为一个由语言核心、工具集和分层记忆组成的元组;(ii)将多智能体推荐系统建模为一个由智能体集合、共享环境以及通信协议组成的三元组。在此框架下,我们展示了四个端到端的应用案例——互动派对策划、用于离线评估的合成用户模拟、多模态家具推荐,以及符合品牌调性的解释生成——每个案例都体现了由智能体编排所解锁的一项关键能力。 随后,我们提出了五大跨领域的挑战类别:协议复杂性、系统可扩展性、幻觉与错误传播、涌现的不一致性(包括隐蔽串通),以及品牌一致性问题。对于每一类挑战,我们均进行了问题形式化、初步缓解策略回顾,并指出了亟待解决的开放研究问题。
最终成果既是蓝图也是议程:蓝图展示了如何将具备记忆增强与工具使用能力的LLM智能体组装成稳健的推荐流程;议程则号召推荐系统(RecSys)社区开发新的基准、理论保障机制以及治理工具,以应对这类高度自主系统的快速演进。 通过将智能体抽象与推荐目标相融合,本文为构建新一代个性化、可信赖且具备丰富上下文感知能力的推荐服务奠定了基础。
大型语言模型(LLM)驱动的智能体不仅仅是传统意义上的聊天机器人,它们展现出智能体行为,而非仅通过基于 token 的预测来回应用户查询。本质上,它们被设计用于处理多步骤任务、编排信息流,并在必要时自主调用各种工具或功能【50, 54, 67】。这一点与传统聊天机器人形成了鲜明对比——后者可能仅在一次对话轮次中提供简短回答,而智能体系统则能够主动组织复杂问题并通过一系列有条理的步骤加以解决。换言之,LLM 智能体不仅是被动的对话伙伴,更是具备将任务分解并调用外部资源以达成目标的动态问题求解者【20, 25, 69】。 使用 LLM 智能体的一个根本原因在于现实任务的复杂性和多阶段性。面对旅行规划、多维度研究或迭代设计流程等复杂情境,单个静态提示往往无法满足需求。这些任务通常涉及多轮决策与外部数据交互,而智能体系统能够将复杂目标拆分为较小的子任务,并逐步加以解决。这种方法规避了传统文本查询的局限,使得决策过程更具鲁棒性和上下文感知能力,并更贴近人类的推理方式【52, 59】。此外,通过将“认知负担”分散到不同的组件中,智能体框架还能降低“幻觉”或回答不完整的风险,确保最终结果不再依赖单次 token 预测【26】。 记忆机制是 LLM 智能体中的关键组成部分,它确保与用户的对话随着时间推移保持一致性和个性化。与传统聊天机器人每轮对话独立、无法追踪历史内容不同,现代智能体结合了多种互补的记忆结构,每种记忆类型都针对不同目标进行优化(详见第3节): * 工作记忆(短期):帮助智能体回忆当前会话中的近期对话内容。例如,当用户提出“推荐一本悬疑小说”后紧接着说“像上次那本一样”,工作记忆会保留原始推荐内容,从而响应后续请求,而无需用户重复前述查询。 * 情节记忆(长期):记录具体的过去事件及其上下文与元数据。例如,一周前用户请求推荐意大利餐厅,如今提出“上次提到的那家餐厅”,情节记忆能准确检索出对应推荐,并回溯其提出时间与理由。 * 语义记忆(长期):从多次交互中提炼并积累通用事实或用户偏好。例如,经过多次对话,智能体可能推断出用户偏好意大利菜,即使在当前会话中未提及,也能主动将意式选项优先排序。 * 程序性记忆(长期):编码已习得的技能、流程或脚本,使智能体能高效地自动执行重复性任务。例如,若用户频繁请求“总结会议记录并发送邮件”,智能体可学会这一工作流;下次用户只需说“发送之前的总结”,即可自动完成任务。
综合运用这些不同类型的记忆,使得智能体始终掌握之前的步骤、用户偏好及外部知识,从而实现更流畅且具上下文感知的交互【18, 83】。 LLM 智能体的另一项核心优势在于其自主调用工具的能力,这极大增强了其处理复杂任务和提供专业信息的能力(见第2.1节)。这些智能体不仅依赖静态模型参数,还能主动调用专用模块或外部服务,以获取精确信息、执行特定分析或开展领域任务【23, 47】。例如,在推荐场景中,当用户请求推荐餐厅时,智能体可使用专业检索工具或数据库查询当前评分与可预订信息,而非依赖记忆中的旧数据。同样地,在推荐适配用户上传房间图像与风格偏好的家具时,智能体可能调用图像分析工具提取视觉特征,再检索产品数据库,筛选出符合审美与空间要求的商品(见第4节)。这些工具的使用也可与记忆机制相辅相成——如语义记忆(用户偏好、物品属性)与情节记忆(先前推荐记录)结合,从而提供更精确且具上下文关联性的推荐。最终,工具集成将 LLM 智能体的功能扩展到传统对话之外,使其具备更强的适应性与个性化处理能力。 综上所述——多步骤任务处理、记忆保持与工具调用——共同赋予 LLM 智能体超越传统问答式聊天机器人的自主能力。通过将任务拆解为可管理的组件【52】、保留关键上下文【38】、并在合适时调用外部工具【55】,LLM 智能体能提供更具思考性与整体性的解决方案,为对话系统与推荐系统带来更智能与灵活的变革。