Reliability in multi-agent systems (MAS) built on large language models is increasingly limited by cognitive failures rather than infrastructure faults. Existing observability tools describe failures but do not quantify how quickly distributed reasoning recovers once coherence is lost. We introduce MTTR-A (Mean Time-to-Recovery for Agentic Systems), a runtime reliability metric that measures cognitive recovery latency in MAS. MTTR-A adapts classical dependability theory to agentic orchestration, capturing the time required to detect reasoning drift and restore coherent operation. We further define complementary metrics, including MTBF and a normalized recovery ratio (NRR), and establish theoretical bounds linking recovery latency to long-run cognitive uptime. Using a LangGraph-based benchmark with simulated drift and reflex recovery, we empirically demonstrate measurable recovery behavior across multiple reflex strategies. This work establishes a quantitative foundation for runtime cognitive dependability in distributed agentic systems.


翻译:基于大语言模型构建的多智能体系统的可靠性日益受到认知故障而非基础设施故障的限制。现有的可观测性工具虽能描述故障,但无法量化分布式推理在失去一致性后的恢复速度。本文提出MTTR-A(智能体系统平均恢复时间),这是一种运行时可靠性度量指标,用于测量多智能体系统中的认知恢复延迟。MTTR-A将经典可靠性理论适配至智能体编排场景,捕捉检测推理漂移并恢复一致操作所需的时间。我们进一步定义了互补性指标,包括平均故障间隔时间与归一化恢复比率,并建立了将恢复延迟与长期认知运行时间相关联的理论边界。通过使用基于LangGraph的基准测试框架(包含模拟漂移与反射恢复机制),我们在多种反射策略下实证观测到了可测量的恢复行为。本研究为分布式智能体系统的运行时认知可靠性奠定了量化基础。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员