Failures are the norm in highly complex and heterogeneous devices spanning the distributed computing continuum (DCC), from resource-constrained IoT and edge nodes to high-performance computing systems. Ensuring reliability and global consistency across these layers remains a major challenge, especially for AI-driven workloads requiring real-time, adaptive coordination. This work-in-progress paper introduces a Probabilistic Active Inference Resilience Agent (PAIR-Agent) to achieve resilience in DCC systems. PAIR-Agent performs three core operations: (i) constructing a causal fault graph from device logs, (ii) identifying faults while managing certainties and uncertainties using Markov blankets and the free energy principle, and (iii) autonomously healing issues through active inference. Through continuous monitoring and adaptive reconfiguration, the agent maintains service continuity and stability under diverse failure conditions. Theoretical validations confirm the reliability and effectiveness of the proposed framework.


翻译:在跨越分布式计算连续体(DCC)的高度复杂异构设备中,故障是常态,这些设备涵盖从资源受限的物联网和边缘节点到高性能计算系统。确保这些层级之间的可靠性和全局一致性仍然是一个重大挑战,特别是对于需要实时自适应协调的人工智能驱动工作负载。这篇进展中的论文提出了一种概率主动推理弹性代理(PAIR-Agent),以实现DCC系统的弹性。PAIR-Agent执行三个核心操作:(i)从设备日志构建因果故障图,(ii)利用马尔可夫毯和自由能原理管理确定性与不确定性以识别故障,以及(iii)通过主动推理自主修复问题。通过持续监控和自适应重配置,该代理能在各种故障条件下维持服务连续性和稳定性。理论验证证实了所提框架的可靠性和有效性。

0
下载
关闭预览

相关内容

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员