通用型虚拟智能体：关于跨数字平台自主智能体的综述

摘要——本文介绍了通用型虚拟智能体（Generalist Virtual Agent，GVA），这是一种能够在多样化数字平台和环境中运行的自主智能体，旨在通过执行多种任务为用户提供支持。本综述探讨了GVA的发展历程，从早期的智能助手到结合大规模模型的现代实现。我们深入分析了GVA的哲学基础和实践依据，讨论了其开发中的挑战以及当前设计与操作中使用的方法。通过对GVA的环境、任务及能力进行详细的分类，本研究旨在弥合理论与实践之间的差距，并指出那些在与现实世界高度相似的环境中运行的GVA更有可能展现出类人智能。我们还讨论了GVA研究的潜在未来方向，强调需要更加现实的评估指标以及长序列决策能力的增强，以推动该领域向更系统化或具身化的应用迈进。本文不仅对现有文献进行了综合分析，还提出了未来研究的框架，为智能系统的持续发展作出了重要贡献。

关键词——自主智能体、智能助手、智能体实现。

引言

开发接近人类水平智能的通用型虚拟智能体（Generalist Virtual Agent, GVA）是人工智能（AI）发展的重要里程碑。从图灵测试 [1] 开始，AI 的研究目标就是创建能够匹敌甚至超越人类智能的计算模型。现代大规模模型 [2], [3] 拥有诸如组合推理 [4], [5], [6], [7] 和工具使用 [8], [9] 等复杂能力，使其成为 GVA 的理想候选。与传统的计算工具不同，这些目标导向的智能体能够自主使用工具，提供个性化服务和智能响应（图 1）。GVA 的研发旨在创建能够独立导航多种环境 [10], [11], [12], [13]，执行任务，并与用户和其他智能体交互的系统，这代表着实现通用人工智能的重要一步。“智能体”这一概念的哲学渊源可以追溯到亚里士多德和休谟等思想家，体现了实体拥有欲望、信念、意图并采取行动的能力。将这一概念引入计算机科学后，智能体表示一种能够与其他智能体协作，代表人类完成任务的过程，通常被称为“智能助手”。随着 AI 的发展，“智能体”一词逐渐成为核心，描述了能够以软件或计算模型形式自主为用户行动的实体。自 20 世纪 50 年代以来，AI 研究不断提升特定能力，例如符号推理 [105] 和围棋、国际象棋等领域的专长 [106]。然而，那一时期的研究将智能体局限于狭窄的任务场景 [39]，限制了其在更广泛环境中的应用。尽管推出了 Siri [107] 和 Cortana [108] 等智能虚拟助手，这些以检索驱动和 API 为基础的系统仍未达到人类水平智能。这些系统通过将语音输入匹配到 API 命令工作，但需要随着 API 和系统更新频繁手动调整和修补，缺乏真正的理解能力。理想的智能体应该通过以用户界面（UI）为观察空间，并通过键盘、屏幕交互等通用行为空间进行互动，模仿人类的认知过程和交互行为，从而成为强大的通用型虚拟智能体（GVA）。这样的智能体能够在多个任务和平台之间迁移和泛化，自主处理非标准任务，通过“观察”和“行动”完成复杂操作。这种能力尤其对有行动障碍的个体意义重大，能够帮助他们独立完成复杂任务，而无需依赖预定义的 API。令人鼓舞的是，大规模模型的兴起为智能体模仿人类输入输出方式提供了新的可能性，为 GVA 的发展铺平了道路。基于大语言模型（Large Language Models, LLMs）的智能体能够处理 HTML [81], [94], [39], [96] 等结构化文本或图像描述。而基于视觉语言模型（Visual Language Models, VLMs）的智能体则能够理解和定位图像内容 [92], [11], [82], [89]。例如，AutoDroid [109] 通过动态分析结合常识与应用特定知识；MMNavigator [103] 则通过与智能手机屏幕交互确定后续操作以完成指令。这些进展凸显了智能体研究的快速发展，同时也表明了对综合性综述的需求，以总结现有工作并指导未来研究。针对这一需求，本文对 GVA 进行了全面调查，旨在弥补这一新兴领域的研究空白。我们回顾了先前研究，提出了设计与评估的分类方法和关键原则。具体而言，我们探讨了以下四个核心问题：（1）什么是 GVA？（2）为什么需要 GVA？（3）如何实现 GVA？（4）GVA 的局限性和前景是什么？我们将 GVA 定义为在数字环境中运行、基于多模态输入完成任务的系统，其观察空间和行动空间能够模仿人类逻辑（第二节）。接着，我们从 AI、人机交互（HCI）和应用的角度强调了对 GVA 的迫切需求（第三节）。在文献综述中，我们根据智能体实现的环境、模型架构和学习策略对研究进行了分类，关注任务和数据差异（第四节）。针对当前 GVA 技术缺乏综合评估框架的现状，我们建议根据需求使用粗粒度或细粒度的方法，并探索基于人工和模型的评估方法以进行定性分析（第五节）。最后，我们讨论了 GVA 的局限性、未来方向和推进 GVA 研究的洞见（第六节和第七节）。本文的贡献在于对现有智能体研究的系统性审视，得出结论认为更接近现实环境的 GVA 更有可能展现类人智能。然而，我们也表达了对当前 GVA 过度依赖大规模模型的担忧。如果这些模型的发展停滞，GVA 将需要探索替代途径。因此，本综述提供了新的见解：推动工具向智能体系统的演化，以增强人机交互能力，或实现超越数字领域的具身化智能的突破。