基于大语言模型(LLM)的智能体已经能够在多个领域自主完成复杂任务。然而,若要进一步培养其自适应行为与长期决策等能力,仅依赖基于人类知识构建的静态数据集仍远远不够。这类数据集不仅构建成本高昂,还缺乏动态性与真实性。越来越多的共识认为,智能体应直接与环境交互,并通过强化学习从经验中学习。 我们将这一迭代过程形式化为 生成–执行–反馈(Generation–Execution–Feedback, GEF)循环:其中,环境通过生成任务来挑战智能体;智能体在任务执行过程中采取行动,环境据此返回观测;环境随后对智能体的轨迹提供评估性反馈,支持其后续学习。在该范式下,环境成为经验数据不可或缺的生产者,因此亟需朝着更高的复杂度、真实性与交互性方向扩展规模。

在本综述中,我们从开创性的“环境中心”视角出发,对环境扩展的代表性方法进行系统性回顾,并按 GEF 循环的三个阶段——任务生成、任务执行与任务反馈——进行梳理。此外,我们还分析了相关基准、实现策略与应用场景,以整合当前零散的进展,并展望智能体智能未来的发展方向。

1 引言

大语言模型(LLM)的快速发展正在推动人工智能领域的范式性转变,催生了大量关于基于 LLM 的智能体研究(Luo et al., 2025b; Xi et al., 2025)。此类智能体继承了基础模型强大的推理与任务分解能力,并在配备工具使用、记忆等模块后,能够执行动作、与真实或模拟环境交互、随时间积累经验,并不断改进自身行为。这一设计已在多个领域取得显著进展,包括自动化编程(Qwen Team, 2025; Anthropic, 2025)、交互式网页导航(OpenAI, 2025a; He et al., 2025)、工具使用(Zhang et al., 2025e; Anthropic, 2024)以及深度研究(Tongyi DeepResearch Team, 2025; OpenAI, 2025b; Google DeepMind, 2024)。

然而,随着智能体能力的不断提升,仅依靠在静态数据集上对预训练模型进行监督微调(SFT),已经难以实现超越人类水平的智能(Huang et al., 2025a; Su et al., 2025a; Zhao et al., 2025)。这类数据集通常由人工标注或在人工监督下构建,因此不仅成本高、难以规模化生产,而且天然受限于人类知识水平,缺乏真实性与适应性。相比之下,强化学习提供了一种更契合的训练范式(Tao et al., 2024; Zhang et al., 2025a),使智能体能够在环境中探索、积累经验,并最终获得新的知识或技能。

我们将这一交互式过程形式化为 生成–执行–反馈(Generation–Execution–Feedback, GEF)循环,如图 1(A) 所示。在每一轮迭代中,环境首先生成多样化的任务;随后智能体在环境中执行任务并产生动作–观测轨迹;接着环境对这些轨迹进行评估,并保留有价值的经验用于后续训练。持续迭代可逐步优化策略并扩展智能体能力。值得注意的是,与先前研究(Gao et al., 2025)不同,我们对“环境”采用了更广泛的定义:智能体外部的一切,包括状态空间、可执行动作空间、用于交互与评估的反馈设计、以及用户与其他智能体的活动,都被视为环境的一部分。在此背景下,环境不再是智能体活动的被动容器,而是体验数据的主动生产者,这凸显了将环境扩展至更加复杂、真实且交互丰富世界的重要性(CAMEL-AI, 2025)。

近期研究从多个角度拥抱了这一环境扩展趋势。例如,AgentGen(Hu et al., 2025c)、AgentGym(Xi et al., 2024)与 GEM(Liu et al., 2025b)构建了异质化环境以提升任务生成的多样性;RZero(Huang et al., 2025a)提出了挑战者–求解者框架,可自主生成难度不断提升的任务;RandomWorld(Sullivan et al., 2025)通过程序化生成大量工具来提升智能体可用工具的交互性;ARE(Andrews et al., 2025)开发了事件驱动环境,支持环境与智能体之间的异步交互,从而扩展更符合现实的环境动态。然而,这些研究方向之间仍缺乏系统性的关联分析。

为此,我们全面梳理当前的环境扩展方法,并提出与 GEF 循环阶段相一致的统一分类体系,从一个开创性的“环境中心”视角出发。在任务生成阶段,我们将环境扩展方法划分为复杂度扩展、动态性扩展与多样性扩展,这三者共同描述了环境持续生成具挑战性、自适应且多样化任务的能力。在任务执行阶段,我们重点关注交互性与真实性,因为这些属性决定了智能体学习所依赖的交互数据的丰富性与逼真度。在反馈阶段,我们从密度、粒度、自动化程度、客观性与鲁棒性五个维度对评估信号的扩展进行分类。 在上述分类体系之外,我们还分析了当前的评测基准、实现框架、应用场景以及未来研究方向。图 1(B) 展示了环境扩展的总体概览,代表性工作如图 2 所示。

本文结构安排如下:我们首先在第 §2 和附录 §A 中介绍背景与概念框架;随后基于三阶段分类体系分别讨论任务生成(§3)、任务执行(§4)与反馈(§5);接着在附录 §B 讨论评测基准,在第 §6 介绍实现框架,并在附录 §C 中讨论应用场景;最后在 §7 展望未来研究方向。

成为VIP会员查看完整内容
10

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
38+阅读 · 8月16日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
18+阅读 · 6月15日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
38+阅读 · 4月18日
大语言模型训练数据
专知会员服务
69+阅读 · 2024年11月22日
数据与多模态大型语言模型的协同作用综述
专知会员服务
57+阅读 · 2024年7月13日
大语言模型视角下的智能规划方法综述
专知会员服务
134+阅读 · 2024年4月20日
「基于通信的多智能体强化学习」 进展综述
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
177+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
38+阅读 · 8月16日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
18+阅读 · 6月15日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
38+阅读 · 4月18日
大语言模型训练数据
专知会员服务
69+阅读 · 2024年11月22日
数据与多模态大型语言模型的协同作用综述
专知会员服务
57+阅读 · 2024年7月13日
大语言模型视角下的智能规划方法综述
专知会员服务
134+阅读 · 2024年4月20日
相关资讯
「基于通信的多智能体强化学习」 进展综述
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员