项目名称: 基于统计学习的云计算系统故障检测与诊断方法研究
项目编号: No.61402450
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 王焘
作者单位: 中国科学院软件研究所
项目金额: 24万元
中文摘要: 云计算技术飞速发展,已广泛应用于诸多领域。巨大的系统规模、动态的部署环境、复杂的组件交互使得云计算系统更易于出现故障。因此,云计算系统的故障检测与诊断技术成为保障云服务可靠性的关键之一。 已有研究存在诸多不足,包括:系统监测需要根据应用特点人工制定监控策略,无法适应多样化云应用的需要;静态的故障检测模型,难以应对云应用运行环境的动态变化;复杂的组件交互使得组件相互影响,难以细粒度准确定位问题原因。针对这些问题,本项目以统计学习为主要研究手段,研究云计算系统的动态监测、故障检测与诊断方法。研究内容包括:基于故障预测的动态自适应监测技术、基于环境感知的故障检测方法以及面向故障传播的问题定位方法。进而,实现原型系统,结合实际云计算平台与云应用对提出的理论、方法和技术进行有效性验证。旨在及时检测到系统故障,并准确定位问题原因,为实现高可靠的云计算系统提供理论依据和技术支撑。
中文关键词: 运行监测;故障检测;故障诊断;性能异常;云计算
英文摘要: Cloud computing technologies are developing rapidly, and have been well applied in various fields. Cloud computing systems are prone to faults due to the large system scale, dynamic deployment environment and complex component interactions. Therefore,
英文关键词: runtime monitoring;fault detection;fault diagnosis;performance anomaly;cloud computing