张圣林:2017年清华大学优秀博士学位论文二等奖获得者
基于日志的数据中心内性能事件管理
Syslog-basedPerformance Event Management within Data Center
作 者:张圣林
指导教师:裴丹
培养院系:计算机科学与技术系
学 科:计算机科学与技术
读博感言:感谢博士这五年,让我获得了独立解决科研问题的能力。
这些事件分为人 为干预事件和系统自身事件两种类型。其中,Web服务软件升级和配置变更(软 件变更)是人为干预事件中的一个关键事件。传统的以人工方式评估这一事件的 方式,易出错,不易扩展,且消耗大量的人力资源。而对于系统自身事件中的关 键事件——交换机故障,目前提出的从交换机日志中提取事件以检测故障的方法, 存在准确性低、计算机资源消耗量大等问题。此外,目前业界还没有能够准确预 测交换机故障的有效机制。
本文的主要研究内容为:首先,基于从格式化日志中提取 出的 KPI 曲线数据,研究快速、准确地评估数据中心中部署的Web 服务软件变更 的影响;然后,从分析非格式化系统日志入手,研究从交换机系统日志中提取事 件以检测交换机故障;最后,研究基于系统日志的交换机故障预测。
研究内容框架
(1) 提出并实现了一种新型的快速、准确评估大型 Web 服务中软件变更影响的 机制——FUNNEL。FUNNEL改进了奇异谱变换(singular spectrum transform)算 法,并采用了 difference-in-difference (DiD)算法以确定性能的变化是否与软件变更 有关,从而实现了快速地检测出明显的性能变化。本文使用某大型Web 服务的数 据验证和评价了 FUNNEL 的性能。实验证明,FUNNEL 达到了 99.7%的准确性。 与之前提出的方法相比,FUNNEL 的检测时延降低了 38.02% 到 64.99%,且其计 算速度有了大幅度提高。
(2) 提出并实现了一种新型的从交换机日志中提取事件的机制——FT-tree。FT- tree 能够准确地和增量式地从日志中学习消息模板,以提取日志消息所代表的故 障事件。本文使用长达 2 年的从分布在超过10 个数据中心的交换机上采集的日志 和故障案例,对比了FT-tree 和其他 3种模板学习方法的性能。实验证明,FT-tree 将故障预测准确性提高了 155% 到188%,并大幅提高了计算效率。
(3) 提出并实现了一种新型的交换机故障预测机制——PreFix。 PreFix 用于预 测是否会在短期内发生交换机硬件故障。该机制使用了新型的机器学习特征组合,即消息模板序列、频率、周期性和爆发性,从而解决了噪声、样本失衡和计算开销 的挑战。通过从真实数据中心交换机上采集的数据,本文对 PreFix 的性能进行了 评价,实验结果表明,PreFix 的平均召回率为61.81%,其误报率为 1.84 × 10−5。
1. ShenglinZhang, Ying Liu, Dan Pei, Yu Chen, Xianping Qu, Shimin Tao,Zhi Zang, XiaoweiJing, Mei Feng. ``FUNNEL: Assessing Software Changes in Web-based Services”, IEEE Transactions on Service Computing, 2016, 14 pages.
2. ShenglinZhang, Ying Liu, Dan Pei, Yu Chen, Xianping Qu, Shimin Tao, and Zhi Zang. ``Rapid and Robust Impact Assessment of Software Changes in Large Internet-based Services”, ACM International Conference on emerging Networking EXperiments and Technologies (CoNEXT), Heidelberg, Germany, December, 2015, 13 pages.
3. ShenglinZhang, Weibin Meng, Jiahao Bu, Sen Yang, Ying Liu, Dan Pei, Jun (Jim) Xu, Yu Chen, Hui Dong, Xianping Qu, Lei Song. ``Syslog Processing for Switch Failure Diagnosis and Prediction in Datacenter Networks” IEEE/ACM International Symposium on Quality of Service (IWQOS)2017, VILANOVA I LA GELTRÚ, SPAIN, June 2017.
作者:张圣林
供图:张圣林
编辑:清华大学研究生院 周明坤 严颖巧