Contemporary GUI agents, while increasingly capable due to advances in Large Vision-Language Models (VLMs), often operate with a critical limitation: they treat each task in isolation, lacking a mechanism to systematically learn from past successes. This digital ''amnesia'' results in sub-optimal performance, repeated errors, and poor generalization to novel challenges. To bridge this gap, we introduce EchoTrail-GUI, a novel framework designed to mimic human-like experiential learning by equipping agents with a dynamic, accessible memory. Our framework operates in three distinct stages. First, during Experience Exploration, an agent autonomously interacts with GUI environments to build a curated database of successful task trajectories, validated by a reward model. Crucially, the entire knowledge base construction is thus fully automated, requiring no human supervision. Second, in the Memory Injection stage, upon receiving a new task, our system efficiently retrieves the most relevant past trajectories to serve as actionable ''memories''. Finally, during GUI Task Inference, these memories are injected as in-context guidance to inform the agent's reasoning and decision-making process. We demonstrate the efficacy of our approach on benchmarks including Android World and AndroidLab. The results show that EchoTrail-GUI significantly improves the task success rate and operational efficiency of baseline agents, validating the power of structured memory in creating more robust and intelligent GUI automation.


翻译:当代图形用户界面(GUI)智能体,尽管得益于大型视觉语言模型(VLMs)的进步而能力日益增强,却常常面临一个关键局限:它们孤立地处理每项任务,缺乏一种系统性地从过往成功中学习的机制。这种数字“健忘症”导致性能欠佳、错误重复以及对新挑战的泛化能力差。为了弥补这一差距,我们提出了EchoTrail-GUI,这是一个新颖的框架,旨在通过为智能体配备动态、可访问的记忆来模拟人类经验式学习。我们的框架在三个不同的阶段运行。首先,在经验探索阶段,智能体自主地与GUI环境交互,以构建一个经过奖励模型验证的、精选的成功任务轨迹数据库。至关重要的是,整个知识库的构建因此是完全自动化的,无需人工监督。其次,在记忆注入阶段,当接收到新任务时,我们的系统会高效地检索最相关的过往轨迹,作为可执行的“记忆”。最后,在GUI任务推理阶段,这些记忆被注入作为上下文指导,以告知智能体的推理和决策过程。我们在包括Android World和AndroidLab在内的基准测试上验证了我们方法的有效性。结果表明,EchoTrail-GUI显著提高了基线智能体的任务成功率和操作效率,验证了结构化记忆在创建更鲁棒、更智能的GUI自动化方面的强大作用。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员