多模态移动智能体的基础与最新趋势：综述

移动智能体在复杂和动态的移动环境中自动化任务方面至关重要。随着基础模型的不断演进，对能够实时适应并处理多模态数据的智能体需求也随之增加。本综述全面回顾了移动智能体技术，重点关注提升实时适应性和多模态交互的最新进展。近期开发的评估基准更好地反映了移动任务中的静态和交互式环境，从而对智能体的性能提供更准确的评估。

我们将这些进展分为两大主要方法：基于提示的方法，利用大型语言模型（LLM）执行基于指令的任务；以及基于训练的方法，对多模态模型进行微调，以适应特定的移动应用。此外，我们还探讨了增强智能体性能的互补技术。通过讨论关键挑战并概述未来的研究方向，本综述为推进移动智能体技术提供了宝贵的见解。完整的资源列表可访问：https://github.com/aialt/awesomemobile-agents

1 引言

移动智能体在处理复杂的移动环境中取得了显著的成功，能够在各种应用中实现任务执行的自动化，且仅需最少的人为干预 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。这些智能体被设计用于感知、规划和执行任务，以适应动态环境，特别适用于需要实时适应性的移动平台。多年来，关于移动智能体的研究显著发展，从简单的基于规则的系统演变为能够处理多模态和动态环境中复杂任务的先进模型 (Shi等, 2017; Rawles等, 2023)。

在早期阶段，移动智能体主要关注通过轻量级的基于规则的系统执行预定义的工作流程，这些系统针对移动设备上的特定任务进行了优化。这些早期智能体通常受限于硬件的计算和存储约束，主要依赖基本的交互模式和静态流程。然而，移动技术的快速进步为更先进的智能体架构铺平了道路，使其能够执行更丰富的任务。评估移动智能体面临独特的挑战，因为传统的静态评估方法往往无法捕捉现实移动任务的动态和交互特性。为了解决这一问题，最近的基准如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式环境，以评估智能体在真实条件下的适应性和表现。这些基准不仅测量任务完成情况，还评估智能体在应对不断变化的移动环境方面的反应能力，从而对其能力进行更全面的评估。

移动智能体研究的最新进展可分为两种方法：基于提示的方法和基于训练的方法。基于提示的方法利用大型语言模型（LLM），如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023)，通过指令提示和链式思维（CoT）推理处理复杂任务。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系统在交互式移动环境中的潜力，但其在可扩展性和稳健性方面仍面临挑战。另一方面，基于训练的方法专注于微调多模态模型，例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023)，专门用于移动应用。这些模型能够通过整合视觉和文本输入来处理丰富的多模态数据，从而提升其在界面导航和任务执行等任务中的表现 (Ma等, 2024; Dorka等, 2024)。

本综述对移动智能体技术进行了深入分析，重点关注感知、规划、行动和记忆的基本组成部分。我们将现有研究分为基于提示和基于训练的方法。此外，我们还探讨了用于评估移动智能体性能的基准和指标，并讨论了互补技术在增强智能体与移动环境交互中的作用。通过本次综述，我们旨在识别当前的挑战和未来在推进移动智能体研究方面的机遇。