Large Language Model (LLM) web agents often struggle with long-horizon web navigation and web task completion in new websites, producing inefficient action sequences unless fine-tuned on environment-specific data. We show that experience-driven memory, combined with look-ahead action simulation, is sufficient for LLM agents to adapt to unseen web environments by remembering past failures and predicting the consequences of future actions. We introduce WebATLAS (Actor-Critic Task-completion with Look-ahead Action Simulation), a memory-augmented LLM web agent that learns a lightweight internal model of the environment from interaction experience and performs hypothetical action rollouts before acting in the real world. WebATLAS builds a persistent cognitive map via curiosity-driven exploration, stores interaction outcomes as experience-based memory, and evaluates candidate actions in cognitive space using a planner--simulator--critic loop. This enables the agent to reuse past experience, avoid previously unsuccessful behaviors, and generate more efficient plans. We evaluate WebATLAS on the WebArena-Lite benchmark for autonomous web navigation and demonstrate a success rate of 63%, outperforming the previous state-of-the-art at 53.9%. Unlike previous systems, our modular architecture requires no website-specific LLM fine-tuning. Ablation studies confirm that experience-driven memory, look-ahead action simulation, and hierarchical replanning play complementary roles in enabling robust, training-free web agents.


翻译:大型语言模型(LLM)网络智能体在处理跨网站的长周期网络导航与任务执行时常常面临挑战,往往产生低效的动作序列,除非在特定环境数据上进行微调。本文证明,经验驱动的记忆结合前瞻性动作模拟,足以使LLM智能体通过记忆过往失败经验并预测未来动作的后果,来适应未见过的网络环境。我们提出WebATLAS(基于演员-评论家架构的具有前瞻动作模拟的任务完成系统),这是一种记忆增强型LLM网络智能体,它从交互经验中学习环境的轻量级内部模型,并在真实世界执行动作前进行假设性动作推演。WebATLAS通过好奇心驱动的探索构建持久认知地图,将交互结果存储为基于经验的记忆,并利用规划器-模拟器-评论家循环在认知空间中对候选动作进行评估。这使得智能体能复用过往经验、规避先前失败的行为,并生成更高效的计划。我们在自主网络导航基准测试WebArena-Lite上评估WebATLAS,其任务完成成功率达到了63%,优于此前53.9%的最佳性能。与先前系统不同,我们的模块化架构无需针对特定网站进行LLM微调。消融实验证实,经验驱动记忆、前瞻动作模拟与分层重规划在实现鲁棒、免训练的网络智能体方面发挥着互补作用。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员