大型语言模型(Large Language Models, LLMs)的出现,通过开放式自然语言交互,彻底变革了信息获取与推理方式。然而,LLMs 仍受限于静态知识、事实幻觉(factual hallucination)以及无法检索实时或特定领域信息等问题。检索增强生成(Retrieval-Augmented Generation, RAG)通过将模型输出与外部证据对齐,有效缓解了这些局限,但传统的 RAG 流水线往往是单轮且启发式的,缺乏对检索与推理过程的自适应控制。
近年来,智能体化搜索(agentic search) 的兴起通过让 LLMs 能够在搜索环境中进行多步交互式的规划(plan)、检索(retrieve)与反思(reflect),突破了这一限制。在这一新范式下,强化学习(Reinforcement Learning, RL) 提供了一种强大的机制,用于实现自适应与自我改进的搜索行为。
本综述首次系统梳理了基于强化学习的智能体化搜索(RL-based agentic search)研究进展,从三个互补维度组织这一新兴领域:(i)RL 的功能角色(what RL is for),(ii)RL 的使用方式(how RL is used,即优化策略),以及(iii)RL 的应用范围(where RL is applied,即优化作用域)。我们总结了具有代表性的研究方法、评估协议与应用实例,并探讨了构建可靠且可扩展的 RL 驱动智能体化搜索系统面临的开放挑战与未来方向。 我们希望本综述能够激发更多关于强化学习与智能体化搜索融合的研究。相关资料库可访问: 👉 https://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papers
大型语言模型(Large Language Models, LLMs)[137, 189, 242] 在自然语言理解、推理与生成方面展现出前所未有的能力,从根本上重塑了用户获取与交互信息的方式。尽管如此,LLMs 仍存在若干局限:它们受限于静态知识截止点(static knowledge cutoffs)[32],易产生事实幻觉(factual hallucinations)[157],并且无法访问实时或特定领域的信息。为应对这些挑战,检索增强生成(Retrieval-Augmented Generation, RAG) [57, 92] 范式应运而生,成为一种流行的解决方案。RAG 将 LLM 的推理能力与经典信息检索(Information Retrieval, IR)技术(如 TF–IDF [2, 172]、BM25 [154, 155] 以及基于链接分析的 PageRank 模型 [13, 18, 138])的精确性相结合。通过从外部知识库中检索证据并基于该上下文生成回答,RAG 能够使 LLM 生成更准确且事实依据更充分的输出,尤其适用于知识密集型任务 [9, 16, 49]。 然而,传统的 RAG 系统 [23] 通常是单轮(single-turn)且启发式驱动(heuristic-driven)的:只进行一次检索与一次生成,缺乏根据中间反馈动态调整检索策略或逐步优化查询的能力。被检索到的文档可能包含无关或噪声信息,从而阻碍下游推理 [20, 82–84]。此外,LLMs 往往难以充分利用检索到的证据,限制了整个流水线的有效性。这些局限促使研究者探索更具智能体特征的搜索系统(agentic search systems),其中 LLM 可作为自主决策者(autonomous decision-maker),在多步过程中动态地进行规划(plan)、检索(retrieve)、推理(reason)与反思(reflect)。 为此,研究者提出了搜索智能体(search agents)——即基于 LLM 的系统,能够与搜索环境进行多步交互 [78, 247]。不同于传统 RAG,搜索智能体可以迭代地生成与优化查询,评估检索结果的质量,并动态调整策略以解决复杂的多跳任务(multi-hop tasks)。这种从被动检索(passive retrieval)到主动智能体化(active agency)的转变,标志着信息检索范式的根本性变革。然而,早期的搜索智能体往往严重依赖手工提示(handcrafted prompting) [105] 或监督微调(supervised fine-tuning) [8, 148],限制了其自主发现最优策略的能力。 近年来,强化学习(Reinforcement Learning, RL) [178] 崭露头角,成为开发自适应(adaptive)与自主(autonomous)搜索智能体的有前景范式 [84, 202]。我们将基于强化学习的智能体化搜索(RL-based agentic search)定义为:通过训练一个 LLM 作为决策智能体,使其能够与搜索环境交互、接收外部反馈,并通过迭代改进策略来最大化奖励。这一形式化定义突出了三个核心特征: (i) 自主性(autonomy)——智能体可自主决定搜索行为; (ii) 学习性(learning)——策略通过强化学习获得,而非人工设计; (iii) 交互性(interaction)——智能体通过与搜索环境的多轮交互不断改进推理与检索能力。 尽管该领域发展迅速,但目前对 RL 驱动的智能体化搜索 仍缺乏系统性理解。如表 1 所示,现有综述 [58, 102, 220] 从不同角度探讨了智能体化搜索,但要么对 RL 的关注不足 [220],要么局限于特定子领域,如 Deep Research [102] 或 RAG [58]。关于 RL 在促进自适应与自主搜索行为中的作用,尚缺乏深入研究。 相比之下,本文是首个专门针对 基于强化学习的智能体化搜索 的全面综述。我们旨在阐明 RL 如何在三个互补维度上促进智能体化搜索的发展: (i) RL 的功能角色(What RL is for)——探讨其在引导检索、推理与决策中的作用; (ii) RL 的使用方式(How RL is used)——涵盖奖励设计、策略学习与高级训练方法等优化策略; (iii) RL 的应用范围(Where RL is applied)——考察 RL 干预的层级范围,从智能体级到步骤级与模块级。 针对每个维度,我们回顾了具有代表性的研究方法,并总结了新兴趋势。论文整体结构如图 1 所示: * 第 2 节介绍智能体化搜索与强化学习的基础; * 第 3 至第 5 节从上述三个视角系统探讨 RL 在智能体化搜索中的作用; * 第 6 节综述评估指标与典型应用; * 第 7 节总结开放挑战与未来研究方向。