移动智能体在复杂和动态的移动环境中自动化任务方面至关重要。随着基础模型的不断演进,对能够实时适应并处理多模态数据的智能体需求也随之增加。本综述全面回顾了移动智能体技术,重点关注提升实时适应性和多模态交互的最新进展。近期开发的评估基准更好地反映了移动任务中的静态和交互式环境,从而对智能体的性能提供更准确的评估。

我们将这些进展分为两大主要方法:基于提示的方法,利用大型语言模型(LLM)执行基于指令的任务;以及基于训练的方法,对多模态模型进行微调,以适应特定的移动应用。此外,我们还探讨了增强智能体性能的互补技术。通过讨论关键挑战并概述未来的研究方向,本综述为推进移动智能体技术提供了宝贵的见解。完整的资源列表可访问:https://github.com/aialt/awesomemobile-agents

1 引言

移动智能体在处理复杂的移动环境中取得了显著的成功,能够在各种应用中实现任务执行的自动化,且仅需最少的人为干预 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。这些智能体被设计用于感知、规划和执行任务,以适应动态环境,特别适用于需要实时适应性的移动平台。多年来,关于移动智能体的研究显著发展,从简单的基于规则的系统演变为能够处理多模态和动态环境中复杂任务的先进模型 (Shi等, 2017; Rawles等, 2023)。

在早期阶段,移动智能体主要关注通过轻量级的基于规则的系统执行预定义的工作流程,这些系统针对移动设备上的特定任务进行了优化。这些早期智能体通常受限于硬件的计算和存储约束,主要依赖基本的交互模式和静态流程。然而,移动技术的快速进步为更先进的智能体架构铺平了道路,使其能够执行更丰富的任务。 评估移动智能体面临独特的挑战,因为传统的静态评估方法往往无法捕捉现实移动任务的动态和交互特性。为了解决这一问题,最近的基准如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式环境,以评估智能体在真实条件下的适应性和表现。这些基准不仅测量任务完成情况,还评估智能体在应对不断变化的移动环境方面的反应能力,从而对其能力进行更全面的评估。

移动智能体研究的最新进展可分为两种方法:基于提示的方法和基于训练的方法。基于提示的方法利用大型语言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通过指令提示和链式思维(CoT)推理处理复杂任务。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系统在交互式移动环境中的潜力,但其在可扩展性和稳健性方面仍面临挑战。另一方面,基于训练的方法专注于微调多模态模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),专门用于移动应用。这些模型能够通过整合视觉和文本输入来处理丰富的多模态数据,从而提升其在界面导航和任务执行等任务中的表现 (Ma等, 2024; Dorka等, 2024)。

本综述对移动智能体技术进行了深入分析,重点关注感知、规划、行动和记忆的基本组成部分。我们将现有研究分为基于提示和基于训练的方法。此外,我们还探讨了用于评估移动智能体性能的基准和指标,并讨论了互补技术在增强智能体与移动环境交互中的作用。通过本次综述,我们旨在识别当前的挑战和未来在推进移动智能体研究方面的机遇。

成为VIP会员查看完整内容
0

相关内容

大模型智能体:概念、前沿和产业实践
专知会员服务
54+阅读 · 8月20日
大型语言模型与智能机器人集成的综述
专知会员服务
63+阅读 · 4月22日
大语言模型视角下的智能规划方法综述
专知会员服务
115+阅读 · 4月20日
长视频生成的综述:挑战、方法与前景
专知会员服务
44+阅读 · 3月26日
多模态人机交互综述
专知会员服务
138+阅读 · 2022年7月3日
专知会员服务
35+阅读 · 2021年8月27日
专知会员服务
39+阅读 · 2021年5月30日
深度强化学习在智能制造中的应用展望综述
专知会员服务
96+阅读 · 2021年1月28日
基于深度学习的数据融合方法研究综述
专知会员服务
135+阅读 · 2020年12月10日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
深度 | 一文概览图卷积网络基本结构和最新进展
机器之心
17+阅读 · 2017年11月30日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
65+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大模型智能体:概念、前沿和产业实践
专知会员服务
54+阅读 · 8月20日
大型语言模型与智能机器人集成的综述
专知会员服务
63+阅读 · 4月22日
大语言模型视角下的智能规划方法综述
专知会员服务
115+阅读 · 4月20日
长视频生成的综述:挑战、方法与前景
专知会员服务
44+阅读 · 3月26日
多模态人机交互综述
专知会员服务
138+阅读 · 2022年7月3日
专知会员服务
35+阅读 · 2021年8月27日
专知会员服务
39+阅读 · 2021年5月30日
深度强化学习在智能制造中的应用展望综述
专知会员服务
96+阅读 · 2021年1月28日
基于深度学习的数据融合方法研究综述
专知会员服务
135+阅读 · 2020年12月10日
相关资讯
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
深度 | 一文概览图卷积网络基本结构和最新进展
机器之心
17+阅读 · 2017年11月30日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员