传统上,Web 作为一个平台,用于连接信息、资源与人,支持搜索、浏览和执行信息型、交易型或通信型任务等人机交互活动。最初的 Web 本质上是关于“连接”的,它将用户与内容、服务以及彼此链接起来。 如今,借助大型语言模型(LLMs)驱动的 AI 智能体的兴起,Web 正在发生根本性转变,迈向“智能体网络”(Agentic Web)——这是一个以自主、目标驱动交互为特征的互联网新阶段。在这一范式中,智能体可以彼此直接交互,为用户规划、协调并执行复杂任务。这种从“以人为中心”向“机器对机器”交互的转变,使用户能够将意图委托出去,从而摆脱日常数字操作,获得更加互动化、自动化的网络体验。 在本文中,我们提出了一个结构化框架,用于理解和构建智能体网络。我们回顾了 Web 从个人电脑时代到移动互联网时代的演变过程,并指出了支撑这一转变的核心技术基础。在我们的框架中,一个由三大关键维度构成的概念模型起到了核心作用:智能性(intelligence)、交互性(interaction)与经济性(economics)。这三者共同支撑了 AI 智能体的核心能力,如检索、推荐、规划与协作。 我们进一步分析了构建可扩展智能体系统所面临的架构与基础设施挑战,包括通信协议、编排策略以及“智能体注意力经济”(Agent Attention Economy)等新兴范式。最后,我们讨论了智能体系统的潜在应用、社会风险与治理问题,并提出了未来的研究方向,以推动构建一个开放、安全且智能的生态系统——由人类意图与智能体行为共同塑造。 持续更新的智能体网络相关研究合集可访问: https://github.com/SafeRL-Lab/agentic-web 关键词:智能体网络,LLM 智能体,Web 架构,安全与保障
长期以来,Web 一直是一个连接平台(Berners-Lee, 1999;Castells, 2002),将人们与信息、服务以及彼此链接起来。在早期阶段,Web 支持人机交互,主要用于完成信息型(如阅读新闻)、交易型(如在线购物)和通信型(如消息和电子邮件)任务。在这一时期,Web 中的“智能”主要体现在帮助用户访问、筛选和交互内容的工具中,如搜索引擎(Brin 和 Page, 1998)、推荐系统(Wang 等, 2006;Koren 等, 2009;Zhao 等, 2013;Zhang 等, 2013)以及用户界面(Deaton, 2003)。然而,用户始终是主动方,需要手动在页面间导航、发起操作,并在每一步做出决策。 近几年,Web 正在经历一场变革:由大型语言模型(LLMs)驱动的 AI 智能体(Yang 等, 2023a;Kapoor 等, 2024)正在迅速涌现。这些 AI 智能体是一类能够感知环境、进行推理并自主采取行动以完成用户设定目标的软件实体。随着感知与执行组件的融合,LLMs 的能力已不再局限于响应提示,而是能够通过智能体进行计划、记忆,并在数字系统中执行复杂交互(Wang 等, 2023)。更重要的是,这些智能体不再受限于单轮交互,而是能够持续执行复杂的、长期的任务。此外,多个智能体之间还可以被编排,以协同完成更复杂的目标(Qian 等, 2024;Yang 等, 2025e;Gottweis 等, 2025;Sapkota 等, 2025)。 智能体系统的兴起由两个强大趋势推动。首先,AI 助手已越来越具备在多个领域(如科研(Ren 等, 2025;Huang 等, 2025b;Schmidgall 等, 2025)、软件开发(Hong 等, 2023;Xia 等, 2024)、客户服务(Rome 等, 2024)和个人效率管理(Li 等, 2024b))中执行复杂、多步骤任务的能力。这些智能体不再是被动响应的工具,而是能够主动规划、推理并持续执行动作的协作伙伴。其次,用户在心理上也越来越接受将不仅仅是单个查询,而是整个工作流(有时跨度可达数分钟、数小时甚至数天)委托给智能体(Guo 等, 2024;Hong 等, 2024)。这种对智能体自主性的信任正在引发新的用户期望和交互界面形式,从而推动 Web 使用方式的根本性变革。 这一演变奠定了我们在本文中正式定义的“智能体网络(Agentic Web)”的基础。在这一新兴范式中,Web 不再只是人类与内容和服务交互的平台,而是一个动态环境,其中自主智能体代表用户进行行动、通信与协作,跨越服务与领域(Petrova 等, 2025;Lù 等, 2025;Chaffer, 2025)。例如,OpenAI 于 2025 年 7 月发布的 ChatGPT Agent,已能够代表用户执行任务,如为日式早餐规划并采购食材,或预订餐厅(OpenAI, 2025)。
智能体网络是一个分布式、交互式的互联网生态系统,其中自主软件智能体(通常由大型语言模型驱动)作为独立中介,持续地规划、协调并执行目标导向的任务。在这一范式下,Web 资源与服务向智能体开放访问,支持持续的智能体间交互、动态信息交换和价值创造,同时也保留传统的人–Web 交互模式。 与传统 Web 主要服务于连接文档、服务和用户以满足信息、交易和通信需求不同,智能体网络支持智能化、目标驱动的交互。尽管访问信息、完成交易、实现通信的核心功能仍在,但这些任务如今由能够推理、规划并代表用户行动的自主智能体所中介。 其本质性的转变体现在:从短期、一次性的用户与静态内容之间的交互,转向涉及多服务、多网页、多领域间协调动作序列的长期持续交互。在智能体网络中,最终用户依然是人类,但“中介用户”(mid users)——即那些主动导航、处理信息、生成内容并与环境交互的主体——则是 AI 智能体。这些智能体通过与分布式的智能体与服务网络交互,解释并执行用户意图。 用户的查询不再是对某一孤立信息的简单请求,而是对一个复杂任务的委托,这可能涉及多步的协商、规划与适应。借助结构化或开放式通信协议(Yang 等, 2025d),智能体可跨领域协作,完成整个工作流,最终交付体现高层次用户目标的成果(Lin 等, 2024b;Yang 等, 2025c)。图 1 展示了这一智能体中介过程的典型任务生命周期:从用户意图到多智能体执行再到结果交付。 在这一新范式下,网页不再仅是静态内容的容器,而演化为具有功能能力、接口和任务角色的主动软件智能体。超链接也从传统的被动导航路径转变为智能体间通信、动态任务分解与协同执行的协调通道。因此,智能体网络将 Web 从一个文档互链的网络,转化为一个交互式、智能化的智能体生态系统。 除了交互模型的变革,智能体网络还重塑了信息的存储、链接与传输方式。在早期的个人计算机(PC)时代,Web 内容主要由机构生成,数据体量较小,用户主要通过关键词搜索访问信息。随着移动互联网的兴起,用户生成内容(UGC)呈现爆炸式增长,信息规模与多样性随之扩大,搜索成本随之上升,推荐系统逐渐成为匹配供需的主流范式。 而随着 LLMs 与智能体系统的出现,信息流的底层逻辑再次发生重大转变。如今,世界的知识不仅存储于静态网页中,也嵌入在 LLMs 的模型参数里。智能体可直接访问这些学习到的知识,结合实时检索,与其他智能体或在线资源进行自主交互。 这使得智能体能够超越传统搜索引擎,实现主动、个性化的内容推荐与信息获取。此外,智能体还能代表用户完成交易与消费流程,创造出一种新的生产–消费动态——其中信息与服务的生产对象不再仅是人类,也可能是智能体本身。在某些场景中,Web 内容甚至可能完全由智能体实时生成,而非人类直接创作,从而构建出一个由智能体同时生产与消费知识的生态系统。
在传统 Web 中,例如订票这样的交易型任务通常由用户手动完成。整个流程包括访问旅游网站、输入搜索条件、调整筛选器、在多个页面之间比对票价,并最终下单。虽然 Web 提供了如推荐引擎、用户界面和搜索算法等辅助工具,但任务执行仍以用户主导、逐步操作为核心。 在智能体网络中,同样的任务可以通过高层次意图的委托来发起。用户只需提供一个目标导向的指令(如“帮我预订下周末飞往纽约的航班,预算范围内”),自主智能体即可代表用户执行整个流程:包括访问服务与 API、查询并解析网页、根据偏好筛选选项,直到完成预订。智能体可能进行多轮迭代、与其他智能体协调,且无需用户再参与操作。 这个例子凸显出核心差异:传统 Web 由人主导操作静态服务,而智能体网络支持跨多个服务与交互的持续、智能、机器主导的工作流。图 2 补充说明了用户与系统交互如何从被动消费演进为主动智能体委托的三个 Web 阶段。
在传统 Web 中,执行诸如了解不同大型语言模型如何处理多模态输入的信息型任务,用户需手动查找白皮书、提取架构图、搜索基准测试结果,并将材料整理成报告。这通常涉及在学术搜索引擎、博客文章、PDF 阅读器与表格工具间频繁切换。 在智能体网络中,同样的任务可交由 Deep Research 智能体处理(如“请撰写一份报告,比较 GPT-4o、Gemini 与 Claude 如何处理文本与图像输入,包括表格与流程图”)。智能体会解析查询并规划多阶段工作流:通过 API、浏览器访问和模型上下文协议(MCP)(Anthropic, 2024b)等手段,从在线来源与技术资源库中检索内容;解析 PDF 与 HTML 文档;调用专用模块提取表格、生成图示并可视化结果;最终通过多步推理将输出整合为结构化报告。 这个例子展示了智能体网络如何超越静态内容获取,进入复杂、适应性强的信息处理阶段。 因此,PageRank(Page 等, 1999)等传统 Web 基石概念,以及如 Web 搜索(Broder, 2002)、推荐系统(Resnick 和 Varian, 1997)和计算广告模型(Nelson, 1974)等更广泛系统,都需在智能体网络语境下重新解读。未来,它们或将不再仅关注静态链接的受欢迎程度或用户历史交互,而更多衡量智能体在网络中的动态效用、响应性与协作潜力。 类似地,原本用于索引静态内容的网页爬虫,也可能演化为“智能体爬虫”——这些自主探索者能够发现、协商并与其他智能体交互,索引的对象不仅包括数据,还包括服务能力、接口功能与合作记录。网页的元数据将变得更加丰富与可操作:除了基础标签或描述外,智能体元数据还可能包括描述 API 的标准化模式、信任等级、性能基准或协商协议等。 过去人工维护、按主题分类的网站目录或黄页,也可被重构为动态智能体注册中心或市场,根据智能体的领域专长、声誉和协作兼容性进行索引。在这样的智能体环境中,搜索引擎有望转变为智能编排器,不仅负责检索相关智能体,还能组合、协调并管理它们之间的工作流,以完成复杂的委托任务。正如 PageRank 曾用于评估页面权威性,未来的“智能体排名”算法可能基于协作成功率、响应性以及智能体在多智能体工作流中的贡献度。 上述这些重构与转变将为下一代智能体发现、信任校准、激励对齐与协同编排的算法与协议奠定基础(Lin 等, 2024b;Wang 等, 2025a),从而推动 Web 成为一个开放、分布式、持续演化的协作智能集合体。 因此,我们亟需重新审视 Web 的基础技术与模块,并从智能体自主性与协同的视角重新定义这些组件。从 HTTP 协议、HTML 语义,到索引、搜索与推荐系统等核心构件,都必须在智能体驱动的未来语境下重新思考。尽管“智能体 AI”迅速崛起,目前的研究文献中仍缺乏对这些 Web 基础设施在智能体范式下的系统性分析与重构。 填补这一空白对于理解并塑造下一代互联网至关重要,而这正是本文的目标所在。
第 2 节回顾了 Web 的历史演变,并结合预测性分析描绘了智能体网络的未来发展轨迹。 * 第 3 节提出并概念化了智能体网络,作为一种全新的 Web 形态,提出三维模型并给出一系列研究命题以刻画其动态特征。 * 第 4 节深入探讨了智能体网络的核心任务与关键支撑技术,包括信息检索、推荐系统、智能体规划、多智能体学习与协同等内容。 * 第 5 节分析了系统层面正在演化的技术生态,并提出构建智能体网络基础设施的核心设计原则。 * 第 6 节展示了代表性应用场景,如电商下单、旅行规划与企业知识助手等。 * 第 7 节探讨了相关的技术风险、信息安全问题、监管挑战与潜在缓解策略。 * 最后,第 8 与第 9 节总结了本文的核心观点,并展望了智能体网络的未来发展路径。