Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.


翻译:多模态大语言模型的最新进展为图形用户界面自动化带来了前所未有的机遇。然而,一个根本性挑战依然存在:如何在保持标注可靠性的同时,高效获取高质量训练数据?我们引入了一种由校准步进奖励系统驱动的自进化训练流程,该系统通过轨迹级校准将模型生成的轨迹转化为可靠的训练信号,以降低10-100倍的成本实现了超过90%的标注准确率。基于此流程,我们推出了Step-GUI系列模型(4B/8B),该模型在实现最先进GUI性能(8B模型:AndroidWorld 80.2%,OSWorld 48.5%,ScreenShot-Pro 62.6%)的同时保持了强大的通用能力。随着GUI智能体能力的提升,实际部署需要跨异构设备的标准化接口,同时保护用户隐私。为此,我们提出了GUI-MCP——首个面向GUI自动化的模型上下文协议,其分层架构结合了底层原子操作与面向本地专家模型的高层任务委派,实现了敏感数据留存于设备的高隐私执行模式。最后,为评估智能体能否处理真实的日常使用场景,我们推出了AndroidDaily基准测试,该测试基于真实世界移动使用模式构建,包含3146个静态动作和235个端到端任务,覆盖高频日常场景(8B模型:静态任务89.91%,端到端任务52.50%)。我们的工作推动了实用GUI智能体的发展,并展现了在日常数字交互中实际部署的强大潜力。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年7月10日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月26日
Arxiv
0+阅读 · 12月23日
Arxiv
0+阅读 · 12月19日
VIP会员
相关资讯
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
相关论文
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员