AI Agent是人机交互新范式。AI Agent是能够感知环境、进行决策、执行动作的智能体,在2023已顺应大模型浪潮而生,随着多模态等技术逐步成熟,当前各厂商持续推出相关产品,Agent已开始逐步进入各个场景的工作流中,成为人机协同新范式。根据Roots Analysis预测数据,预计24年全球AI Agent市场规模为52.9亿美金,预计2035年达到2168亿美金,对应24-35年CAGR为40.15%。 OpenAI推出Operator,AI正式迈入Agent时代。Operator由CUA新模型提供支持,其通过强化学习实现了GPT-4o的视觉能力与高级推理相结合,可以像人类一样完成与图形用户界面(GUI)的交互。Operator运行在浏览器中,在云端构建虚拟环境来执行操作,工作步骤主要分为感知、推理、执行。当前Operator测试数据优于前期SOTA,但与人类差距仍较大,目前仍在快速进步中。 Operator遵守严格的数据使用和法律要求。OpenAI在数据使用上,除了公开和用户提供的信息之外,还有较多的第三方公司合作。美国法律对OpenAI在数据访问的隐私保护、数据安全、版权、特定领域数据保护等均有要求,Operator也提供了较为严格的安全措施。 Operator在多个场景应用已逐步显示潜力。Operator的一些典型应用场景包括:旅行预订、购物、餐厅预订、行政任务、市场营销、与 各行业合作。OpenAI正与DoorDash、Instacart、OpenTable和Priceline等公司合作,以改进Operator在现实世界中的应用。 中国团队推出全球首个通用AI Agent Manus,性能表现优异,与阿里千万达到合作。Manus定位为全球第一款通用Agen,面对各类复杂多变的任务,Manus在自己的虚拟环境中灵活调用各类工具——编写并执行代码、智能浏览网页、操作各类网页应用——目标为用户直接交付完整的任务成果。在官方演示中,Manus展现了其筛选简历、遴选房产、股票分析等多种应用场景。在GAIA基准测试中,Manus在所有三个难度级别上都取得了新的最先进(SOTA)表现。目前Manus平台宣布将与阿里通义千问团队正式达成战略合作。