In the data center, unexpected downtime caused by memory failures can lead to a decline in the stability of the server and even the entire information technology infrastructure, which harms the business. Therefore, whether the memory failure can be accurately predicted in advance has become one of the most important issues to be studied in the data center. However, for the memory failure prediction in the production system, it is necessary to solve technical problems such as huge data noise and extreme imbalance between positive and negative samples, and at the same time ensure the long-term stability of the algorithm. This paper compares and summarizes some commonly used skills and the improvement they can bring. The single model we proposed won the top 15th in the 2nd Alibaba Cloud AIOps Competition belonging to the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining.


翻译:在数据中心,记忆失灵造成的意外停机,可能导致服务器的稳定性下降,甚至整个信息技术基础设施的稳定性下降,从而对企业造成损害。因此,能否准确提前预测记忆失灵已成为数据中心需要研究的最重要问题之一。然而,对于生产系统中的记忆失灵预测,必须解决技术问题,如巨大的数据噪音和正与负抽样之间的极端不平衡,同时确保算法的长期稳定性。本文比较并总结了一些常用的技能以及它们能够带来的改进。我们提议的单一模型赢得了属于第25届太平洋-亚洲知识发现和数据开采会议的第2届阿里巴巴云类IOps竞赛的第15届第15届竞赛。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
26+阅读 · 2018年8月19日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员