【优博微展2017】张圣林:基于日志的数据中心内性能事件管理

2018 年 1 月 4 日 清华大学研究生教育 张圣林



张圣林:2017年清华大学优秀博士学位论文二等奖获得者


基于日志的数据中心内性能事件管理


Syslog-basedPerformance Event Management within Data Center


作    者:张圣林

指导教师:裴丹

培养院系:计算机科学与技术系         

学    科:计算机科学与技术

读博感言感谢博士这五年,让我获得了独立解决科研问题的能力。


研究背景/选题意义/研究价值


这些事件分为人 为干预事件和系统自身事件两种类型。其中,Web服务软件升级和配置变更(软 件变更)是人为干预事件中的一个关键事件。传统的以人工方式评估这一事件的 方式,易出错,不易扩展,且消耗大量的人力资源。而对于系统自身事件中的关 键事件——交换机故障,目前提出的从交换机日志中提取事件以检测故障的方法, 存在准确性低、计算机资源消耗量大等问题。此外,目前业界还没有能够准确预 测交换机故障的有效机制。


主要研究内容


本文的主要研究内容为:首先,基于从格式化日志中提取 出的 KPI 曲线数据,研究快速、准确地评估数据中心中部署的Web 服务软件变更 的影响;然后,从分析非格式化系统日志入手,研究从交换机系统日志中提取事 件以检测交换机故障;最后,研究基于系统日志的交换机故障预测。


研究内容框架


主要创新点


(1) 提出并实现了一种新型的快速、准确评估大型 Web 服务中软件变更影响的 机制——FUNNEL。FUNNEL改进了奇异谱变换(singular spectrum transform)算 法,并采用了 difference-in-difference (DiD)算法以确定性能的变化是否与软件变更 有关,从而实现了快速地检测出明显的性能变化。本文使用某大型Web 服务的数 据验证和评价了 FUNNEL 的性能。实验证明,FUNNEL 达到了 99.7%的准确性。 与之前提出的方法相比,FUNNEL 的检测时延降低了 38.02% 到 64.99%,且其计 算速度有了大幅度提高。


(2) 提出并实现了一种新型的从交换机日志中提取事件的机制——FT-tree。FT- tree 能够准确地和增量式地从日志中学习消息模板,以提取日志消息所代表的故 障事件。本文使用长达 2 年的从分布在超过10 个数据中心的交换机上采集的日志 和故障案例,对比了FT-tree 和其他 3种模板学习方法的性能。实验证明,FT-tree 将故障预测准确性提高了 155% 到188%,并大幅提高了计算效率。


(3) 提出并实现了一种新型的交换机故障预测机制——PreFix。 PreFix 用于预 测是否会在短期内发生交换机硬件故障。该机制使用了新型的机器学习特征组合,即消息模板序列、频率、周期性和爆发性,从而解决了噪声、样本失衡和计算开销 的挑战。通过从真实数据中心交换机上采集的数据,本文对 PreFix 的性能进行了 评价,实验结果表明,PreFix 的平均召回率为61.81%,其误报率为 1.84 × 10−5。


代表性学术发表


1. ShenglinZhang, Ying Liu, Dan Pei, Yu Chen, Xianping Qu, Shimin Tao,Zhi Zang, XiaoweiJing, Mei Feng. ``FUNNEL: Assessing Software Changes in Web-based Services”, IEEE Transactions on Service Computing, 2016,  14 pages.

2. ShenglinZhang, Ying Liu, Dan Pei, Yu Chen,  Xianping Qu, Shimin Tao, and Zhi Zang. ``Rapid and Robust Impact Assessment of Software Changes in Large Internet-based Services”, ACM International Conference on emerging Networking EXperiments and Technologies (CoNEXT), Heidelberg, Germany, December, 2015, 13 pages.


3. ShenglinZhang, Weibin Meng, Jiahao Bu, Sen Yang, Ying Liu, Dan Pei, Jun (Jim) Xu, Yu Chen, Hui Dong, Xianping Qu, Lei Song. ``Syslog Processing for Switch Failure Diagnosis and Prediction in Datacenter Networks” IEEE/ACM International Symposium on Quality of Service (IWQOS)2017, VILANOVA I LA GELTRÚ, SPAIN, June 2017.



作者:张圣林

供图:张圣林

编辑:清华大学研究生院  周明坤  严颖巧


登录查看更多
0

相关内容

高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
数据标注研究综述,软件学报,19页pdf
专知会员服务
87+阅读 · 2020年2月20日
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
96+阅读 · 2020年1月21日
Kong 1.1 带来声明式配置与无数据库部署模式
开源中国
8+阅读 · 2019年3月28日
【优博微展2018】刘昊:基于深度神经网络的人脸关键点检测
清华大学研究生教育
32+阅读 · 2018年12月1日
2017年刊登论文大盘点——综述篇
计算机研究与发展
5+阅读 · 2017年12月14日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
【宁波站】网络爬虫与文本挖掘
数萃大数据
4+阅读 · 2017年7月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
相关资讯
相关论文
Top
微信扫码咨询专知VIP会员