Mobile Graphical User Interface (GUI) agents aim to autonomously complete tasks within or across apps based on user instructions. While recent Multimodal Large Language Models (MLLMs) enable these agents to interpret UI screens and perform actions, existing agents remain fundamentally reactive. They reason over the current UI screen but lack a structured representation of the app navigation flow, limiting GUI agents' ability to understand execution context, detect unexpected execution results, and recover from errors. We introduce Agent-SAMA, a state-aware multi-agent framework that models app execution as a Finite State Machine (FSM), treating UI screens as states and user actions as transitions. Agent-SAMA implements four specialized agents that collaboratively construct and use FSMs in real time to guide task planning, execution verification, and recovery. We evaluate Agent-SAMA on two types of benchmarks: cross-app (Mobile-Eval-E, SPA-Bench) and mostly single-app (AndroidWorld). On Mobile-Eval-E, Agent-SAMA achieves an 84.0% success rate and a 71.9% recovery rate. On SPA-Bench, it reaches an 80.0% success rate with a 66.7% recovery rate. Compared to prior methods, Agent-SAMA improves task success by up to 12% and recovery success by 13.8%. On AndroidWorld, Agent-SAMA achieves a 63.7% success rate, outperforming the baselines. Our results demonstrate that structured state modeling enhances robustness and can serve as a lightweight, model-agnostic memory layer for future GUI agents.


翻译:移动图形用户界面(GUI)代理旨在根据用户指令,在单个或多个应用程序内自主完成任务。尽管近期的多模态大语言模型(MLLMs)使这些代理能够解析UI界面并执行操作,但现有代理本质上仍是被动响应的。它们基于当前UI界面进行推理,但缺乏对应用导航流程的结构化表示,这限制了GUI代理理解执行上下文、检测意外执行结果以及从错误中恢复的能力。我们提出了Agent-SAMA,一个状态感知的多代理框架,该框架将应用执行建模为有限状态机(FSM),将UI界面视为状态,用户操作视为状态转移。Agent-SAMA实现了四个专用代理,它们协同实时构建并使用FSM,以指导任务规划、执行验证和恢复。我们在两类基准测试上评估了Agent-SAMA:跨应用任务(Mobile-Eval-E, SPA-Bench)和主要单应用任务(AndroidWorld)。在Mobile-Eval-E上,Agent-SAMA实现了84.0%的成功率和71.9%的恢复率。在SPA-Bench上,其成功率达到80.0%,恢复率为66.7%。与先前方法相比,Agent-SAMA将任务成功率最高提升了12%,恢复成功率提升了13.8%。在AndroidWorld上,Agent-SAMA取得了63.7%的成功率,优于基线方法。我们的结果表明,结构化的状态建模增强了系统的鲁棒性,并可作为未来GUI代理的轻量级、模型无关的记忆层。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)
CreateAMind
10+阅读 · 2019年8月10日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员