本综述聚焦于快速演进的深度研究系统领域——这些由 AI 驱动的应用通过整合大型语言模型、先进的信息检索技术与自主推理能力,实现了复杂研究工作流的自动化。我们系统分析了自 2023 年以来出现的 80 余个商用与非商用实现,包括 OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch,以及众多开源替代方案。基于全面的调研,我们提出了一套新的分层分类体系,从四个核心技术维度对系统进行归类:基础模型与推理引擎、工具使用与环境交互、任务规划与执行控制、知识综合与结果生成。 文章深入探讨了这些系统在学术、科学、商业与教育场景中的架构模式、实现方法与领域适配特征。分析显示,当前实现已具备显著能力,但在信息准确性、隐私保护、知识产权与可获取性等方面仍面临技术与伦理挑战。最后,本文指出了未来值得关注的研究方向:高级推理架构、多模态集成、领域专化、人机协作以及生态系统标准化,这些方向很可能塑造这一变革性技术的未来发展。 通过构建理解深度研究系统的综合框架,本综述既为 AI 增强知识工作的理论研究提供了参考,也为开发更强大、更负责任、更易获取的研究技术奠定了实践基础。论文资源可在 https://github.com/scienceaix/deepresearch 获取。

1 引言

人工智能的快速发展引发了一场范式转变,改变了知识在学术和工业领域中被发现、验证与应用的方式。传统的研究方法依赖于人工的文献综述、实验设计和数据分析,如今正逐步被智能系统所补充——在某些情况下甚至被替代——这些系统能够自动化端到端的研究流程。这一演化催生了一个新兴领域,我们称之为“深度研究(Deep Research)”,其标志是大型语言模型(LLMs)、先进的信息检索系统与自动推理框架的融合,重新定义了学术探索与实际问题解决的边界。

1.1 深度研究的定义与范围

深度研究指的是系统性地应用人工智能技术,从三个核心维度对研究流程进行自动化和增强: 1. 智能知识发现:自动化地进行文献检索、假设生成与跨异构数据源的模式识别; 1. 端到端工作流自动化:将实验设计、数据采集、分析与结果解释集成到统一的AI驱动流程中; 1. 协同智能增强:通过自然语言界面、可视化手段和动态知识表示促进人机协作。

为了清晰界定“深度研究”的边界,我们将其与相邻的AI系统区分如下: * 区别于通用AI助手:虽然像 ChatGPT 这样的通用智能体能够回答研究问题,但它们缺乏自动化工作流能力、专用研究工具及端到端的研究编排功能,这是深度研究系统的核心特征。近期的调查强调了专用研究系统与通用AI能力之间的关键差异【73, 76】,尤其指出领域专用工具在根本上改变了研究流程,而不仅仅是提升效率【213, 318】。 * 区别于单一功能的研究工具:如文献管理器、搜索引擎或统计分析软件这类专用工具只解决了研究流程中的某一部分功能,缺乏深度研究系统所具备的集成推理与跨功能编排能力。像 scispace【242】与 You.com【313】代表了早期的研究辅助尝试,但仍不具备真正的端到端研究能力。 * 区别于纯粹的LLM应用:那些仅通过研究提示语调用LLM的应用程序,缺乏对环境的交互能力、工具集成以及工作流自动化能力,也不能归入深度研究系统的范畴。

本综述聚焦于至少具备上述三项核心维度中的两项,并以大型语言模型为基础推理引擎的系统。涵盖的系统包括商业产品(如 OpenAI/DeepResearch【197】、Google Gemini/DeepResearch【89】、Perplexity/DeepResearch【209】),以及开源实现(如 dzhng/deepresearch【321】、HKUDS/Auto-Deep-Research【112】等)。我们排除纯粹的书目信息工具或缺乏认知整合能力的单阶段自动化系统,例如 Elicit【74】、ResearchRabbit【228】、Consensus【63】、Scite【243】等。其他如 STORM【278】等专注于科学文本检索与组织的工具虽然具有价值,但不具备本综述所定义的深度研究能力。

1.2 历史背景与技术演进

深度研究的发展轨迹可分为三个阶段,反映了技术进步与实现路径的演变:

1.2.1 起源与早期探索(2023年–2025年2月)

值得注意的是,像 n8n【183】、QwenLM/Qwen-Agent【224】等工作流自动化框架在深度研究爆发之前就已存在,说明相关技术的基础早已形成。深度研究的概念来源于AI助手向智能体的演进。2024年12月,Google Gemini 首次推出具备基本多步推理与知识整合能力的 Deep Research 功能【60】,为后续更复杂的AI驱动研究工具奠定了基础。诸如 AutoGPT【250】、BabyAGI【311】等智能体框架,以及 cline2024【61】和 open_operator【36】对集成研究流程和浏览器自动化的贡献,也是早期生态的重要组成部分。

1.2.2 技术突破与竞争格局(2025年2月–3月)

2025年2月,DeepSeek 的开源模型【68】因其高效的推理能力与低成本特性引发了市场革命。OpenAI 的 Deep Research(基于 o3 模型)也在此时推出,具备自主研究规划、跨领域分析和高质量报告生成能力,在复杂任务中的准确率超过了以往基准【197】。与此同时,Perplexity 推出了免费使用的 Deep Research【209】,主打响应速度与普及性。开源社区也涌现出多个替代方案,如 nickscamara/open-deepresearch【42】、mshumer/OpenDeepResearcher【249】、btahir_open_deep_research【37】、GPT-researcher【16】等。轻量级项目如 Automated-AI-Web-Researcher-Ollama【267】适用于本地资源有限的环境,而 Langchain-AI/Open_deep_research【131】等模块化框架则支持可组合的自定义研究流程。

1.2.3 生态扩展与多模态集成(2025年3月至今)

第三阶段体现了多样化生态系统的成熟发展。Jina-AI/node-DeepResearch【121】等开源项目支持本地部署与高度定制,而 OpenAI 与 Google 的闭源版本则持续推进多模态支持与多智能体协作。先进的搜索技术与报告生成框架的集成,使这些工具在学术研究、金融分析等多个领域具备实际应用价值。与此同时,Manus【164】、AutoGLM-Research【330】、MGX【171】、Devin【62】等平台也开始集成AI研究能力。Anthropic 于2025年4月推出 Claude/Research【13】,引入具备系统化探索与可验证引文能力的智能体搜索。OpenManus【193】、Camel-AI/OWL【43】、TARS【39】等智能体框架则在专业化能力与领域优化方面进一步拓展生态版图。

1.3 意义与实际影响

深度研究在多个领域展现出变革性潜力: 1. 学术创新:通过自动文献综合(如 HotpotQA【307】基准)加速假设验证,帮助研究者发现可能被忽视的跨学科关联。Sourati 与 Evans【256】指出,以人为中心的人工智能可增强研究者能力,并适应其理论与方法框架,代表了从传统自动化向协同智能的根本转变。Khalili 与 Bouchachia【128】进一步展示了如何通过系统化方法构建科学发现机器,从而重塑假设生成、实验设计与理论精炼流程。 1. 企业转型:系统如 Agent-RL/ReSearch【2】与 smolagents/open_deep_research【115】可深入分析市场趋势、竞争格局与战略机会,提升数据驱动决策的规模与效率。 1. 知识民主化:开源项目如 grapeot/deep_research_agent【263】与 OpenManus【193】降低了技术门槛,使个人与资源有限的组织也能获取先进研究能力。

1.4 本综述的研究问题与贡献

本文旨在解答以下三个核心问题: 1. 系统架构、实现方法与功能能力的设计如何影响深度研究系统的有效性? 1. 深度研究实现中,LLM 微调、检索机制与工作流编排方面有哪些技术创新? 1. 不同系统如何平衡性能、可用性与伦理考量?从如 n8n【183】与 OpenAI/AgentsSDK【199】等系统中能观察到哪些共性模式?

我们的贡献体现在三个维度: 1. 方法论:提出一套新颖的分类体系,从基础模型到知识综合能力对系统进行技术架构划分; 1. 分析性:基于评估指标对代表性系统进行比较分析,揭示各类方法的优劣; 1. 实践性:识别关键挑战,提出未来发展路线图,特别关注新兴架构与集成机会。

本文其余部分将按以下结构展开:第二节介绍概念框架,第三至四节分析技术创新与对比研究,第五节讨论实现技术,第六节介绍评估方法,第七节列举应用场景,第八节探讨伦理问题,第九节提出未来发展方向。

成为VIP会员查看完整内容
0

相关内容

《基于图计算的多机器人协同研究》最新139页
专知会员服务
25+阅读 · 5月28日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
143+阅读 · 2024年9月15日
《Mixup数据增强及其扩展》综述
专知会员服务
37+阅读 · 2024年9月15日
《Llama 3大模型》技术报告中英文版,95页pdf
专知会员服务
104+阅读 · 2024年8月2日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
65+阅读 · 2020年5月15日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
30+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
465+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
30+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员