大型语言模型(LLM)的出现极大地革新了网页搜索。 基于 LLM 的搜索智能体的兴起,标志着信息检索向更深层次、更动态、更自主化方向的关键转变。这类智能体能够理解用户意图和环境上下文,并通过动态规划执行多轮检索,将搜索能力扩展到远超传统网页搜索的范围。 以 OpenAI 的 Deep Research 为代表的前沿案例,凸显了它们在深度信息挖掘和真实世界应用中的巨大潜力。 本文首次对搜索智能体进行了系统性分析,从体系结构、优化方法、应用场景和评测方式四个维度,对现有研究进行了全面的分析与分类,最终识别出该领域中的关键开放挑战,并提出了有前景的未来研究方向。 我们的资料库可在以下地址获取:https://github.com/YunjiaXi/Awesome-Search-Agent-Papers。

1 引言

**

**

大型语言模型(LLM)的出现,开启了自然语言处理的新纪元,并从根本上改变了包括网页搜索在内的众多领域(Wang et al., 2024b; Zhao et al., 2023; Hadi et al., 2023; Xi et al., 2025c; Lin et al., 2025a, 2024; Xi et al., 2025b, 2024a)。如图 1 所示,传统网页搜索需要用户在结果列表中手动筛选和整合相关信息(Lin et al., 2021; Dai et al., 2021; Fu et al., 2023)。随着 LLM 的兴起,出现了LLM 增强搜索这一新范式,其中 LLM 会改写用户查询以提升搜索准确性(Ma et al., 2023b; Liu and Mozafari, 2024; Xi et al., 2024b),或对搜索结果进行摘要以加快理解过程,即传统的检索增强生成(RAG)(Gao et al., 2023; Fan et al., 2024)。然而,这种集成方式往往是静态的,因为 LLM 依赖于单轮或基于规则的迭代搜索,难以有效处理复杂且动态变化的上下文。

LLM 智能体的出现带来了关键转变,催生了搜索智能体(Zhang et al., 2024b)。借助自主性,搜索智能体能够掌控整个搜索流程,更有效地利用上下文进行自适应推理与动态检索。在这一范式中,搜索成为一种主动行为,不再局限于网页,而是扩展到更广泛的信息源,例如私有数据库以及智能体内部的经验。具体而言,搜索智能体可定义为:一种能够理解用户意图与环境上下文、自动规划搜索策略、从多样化来源执行多轮动态检索,并整合信息以提供全面洞见的 LLM 智能体。业界领先的解决方案,如 OpenAI 的 Deep Research(OpenAI, 2025)、Gemini(Gemini, 2025)以及 Perplexity(Perplexity, 2025),充分展示了搜索智能体在深度信息挖掘与商业化方面的潜力。

鉴于这些快速发展,本文从多个视角对搜索智能体进行首次系统性综述,围绕如何搜索如何优化如何应用以及如何评测四个维度展开分析。与近期仅聚焦于特定子领域或单一视角的综述不同,例如强调从大量信息检索生成专业报告的 Deep Research(Xu and Peng, 2025; Huang et al., 2025b)或关注推理与 RAG 结合的研究(Liang et al., 2025; Gao et al., 2025),我们的工作全面剖析了搜索智能体的全流程,包括其搜索结构、优化方法、应用场景、评测体系及面临的挑战,并对各部分的代表性工作与发展趋势进行了深入分析。

本文结构如下:第 2 节介绍搜索智能体的任务定义;第 3 节“如何搜索”探讨智能体如何扩展搜索轮次并利用复杂的搜索结构(如并行、顺序与混合)来确定查询内容;第 4 节“如何优化”讨论搜索智能体的多种优化方法,包括调参与无调参手段;第 5 节“如何应用”阐述搜索智能体的广泛应用领域,涵盖智能体内部增强(如推理、记忆与工具使用)与外部应用(如数学、医学与金融);第 6 节“如何评测”介绍搜索智能体的评测方法,包括相关数据集与指标;最后,第 7 节总结当前的挑战并展望未来的研究方向。

成为VIP会员查看完整内容
1

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
自进化智能体综述:通往人工超级智能之路
专知会员服务
29+阅读 · 7月30日
【ETZH博士论文】数据驱动的人工智能
专知会员服务
36+阅读 · 2月21日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
31+阅读 · 2024年8月23日
王喆:深度学习推荐系统实战
AINLP
11+阅读 · 2020年11月24日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
474+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员