导读
RGF算法+迁移学习精确预测硬盘故障。《Predicting Disk Replacement towards Reliable Data Centers》由IBM研究院发表于数据挖掘顶会议KDD 2016。磁盘是当今数据中心中最常见的硬件设备,也是最易发生故障的设备。
尽管有如RAID的防御机制,系统的可用性和可靠性仍然经常严重冲击。 本文采用RGF算法和迁移学习精确预测硬盘故障从而判断硬盘是否应该更换。其方法对硬件设备的故障预测有借鉴意义。
互联网迅速发展,网络服务数量骤增, 大规模海量数据存储系统是必不可少的支持。虽然新的存储介质例如SSD,已经在读性能等很多方面拥有了比磁盘更好的性能,但就目前来讲,其高昂的花费使大部分数据中心难以负担。因此,大型数据中心依然采用传统的以磁盘为主的存储系统。这样做采购成本上虽然有了节省,但磁盘频繁损坏导致的数据丢失给企业带来的损失也是不可忽视的重大问题。
据美国63个数据中心组织进行的一项研究显示,数据中心的停机费用在过去几年中显著增加,从2010年的5600美元/分钟增加到2016年的8851美元/分钟。以往基于磁盘SMART属性建立的各种磁盘故障预测模型,虽然取得了一定的效果,但是其在SMART属性选择、准确性以及模型的复用性上存在不足之处。
因此,本文提出了一个自动、精确的磁盘故障预测的方法,判断磁盘在接下来一段时间内需不需要替换。下面两个图展示的是有无替换预测的磁盘可用性示意图。
左图代表的是传统的磁盘异常检测,磁盘状态开始变差后才检测到磁盘故障,这时的可用性已经降到了最低才开始更换磁盘。
右图展示的是使用磁盘故障预测的情况,首先系统判断磁盘的状态即将要变差,然后工程师在磁盘可用性降低之前更换磁盘。
通过这两个图的对比,我们可以看出提前预测磁盘故障可以降低故障对系统可用性的冲击。
但是,磁盘故障预测,存在如下挑战:
不是所有的SMART属性都与磁盘故障相关。因为缺乏SMART属性对磁盘状态指示的标准,所以需要从SMART属性中选择与一部分磁盘故障相关的属性,作为故障预测模型的输入。
磁盘故障数据高度不平衡。随着时间的推移,健康磁盘的SMART数据量一直在增加,但是只有一小部分磁盘(2%)被替换,即被替换的磁盘数据非常少。分类算法通常最大限度地提升整体精度,少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低。
不同类型的磁盘SMART存在差异。SMART是特定于制造商的,它们的编码和标准化在制造商之间差别很大,所以不能使用同一个预测性模型来判断不同型号的磁盘。下面两个图展示的是不同类型磁盘的SMART数据差异,其中左图表示的是温度,右图表示的是开机关机的周期,从两个图的对比可以看出,不同类型的磁盘SMART确实存在差异。
本文分为如下五步来解决故障预测的挑战:
选择SMART属性。使用突变点(changepoint)检测的方法对SMART属性分类,选择与磁盘替换相关的SMART属性。
生成时间序列。使用指数平滑来生成简化但是信息丰富的时间序列。
解决数据不平衡性。通过欠抽样(downsampling)选择具有代表性的健康磁盘的数据,然后用这些数据来代表全部的健康磁盘,从而使健康磁盘与替换磁盘的比例达到平衡。
对磁盘状态分类。RGF是一个分类算法,可以将磁盘的状态分成0/1的状态,如果当前时间序列被分成1状态,则认为磁盘即将出现故障,需要更换磁盘。
迁移学习。考虑到同一厂商生产的不同磁盘模型之间也存在一定差异,本文使用了迁移学习的方法,从而利用某种磁盘上训练的模型来预测同一厂商的其他磁盘的故障替换情况。
因为SMART数据是随着时间的增长而生成的,所以文中是通过时间序列突变点(changepoint)检测来确定SMART与磁盘替换的相关性。当被替换的磁盘SMART时间序列中某个SMART属性发生突变,而且这个转变是永久性不可恢复的,那么可以认为这个属性与磁盘替换是相关的。
下图展示的是SMART_187_raw(无法纠正的错误)的折线图,这是报告给操作系统的无法通过硬件ECC校正的错误。如果数据值不为零,就应该备份磁盘上的数据了。从图中可以看出在第50天的时候,SMART_187_raw值突然增大,即第50天为突变点。
通过检测每一个SMART属性,本文得到了下表中展示的结果(只展示部分结果)。在表格中,SgtA和HitA分别表示希捷和日立的磁盘型号,Ratio表示磁盘替换前该属性值出现突变的比例。我们可以看出有些SMART属性确实与磁盘替换无关,而且对于不同型号的磁盘,与磁盘替换事件相关的SMART属性是不相同的。
经过第一步的SMART属性值的挑选,下一步需要做的是生成预测模型可以使用的时间序列。使用时间序列作为模型的数据是基于如下三点考虑的:
每天的数据都是不稳定的,可能某天的SMART数据缺失。
磁盘具有一定的自恢复性,不能根据某一天的数据来判定磁盘接下来一段时间的状态。
如果只看某一天的数据,则无法提前一段时间来预测磁盘故障,也就无法留出充足的时间给工程师更换磁盘。
所以本文使用指数平滑的方法来生成时间序列,S_t=α·Y_t+(1-α)·S_(t-1)是指数平滑的公式,其中α是平滑参数,Y_t是之前t个数据的平滑值。α越接近1,平滑后的值越接近当前时间的数据值。指数平滑不舍弃过去的数据,而是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。
遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,而使少数类样本的分类性能下降。因为这些算法大多数建立在各类数据分布平衡的假设之下,以寻求数据总体分类准确率为最大目标。而在磁盘故障预测的场景下,磁盘故障的数量是远远小于正常磁盘的。本文使用了欠抽样(downsampling)的方式来平衡数据。
具体做法是这样的,对健康磁盘的时间序列样本做K-means聚类,聚类之后每一个类别中样本都是相似的,然后选择距离聚类中心最近的n个点作为健康磁盘样本的抽样结果。
本文使用了RGF算法对磁盘状态分类。RGF 算法是一个分类算法,它是GBDT(梯度提升决策树)算法最好的变种之一。针对 GBDT 每次迭代只优化新建树以及过拟合的问题,RGF使用了正则化的全局优化贪心搜索改进算法:
每次迭代直接对整个贪心森林进行学习
新增决策树后进行全局的参数优化
引入显式的针对决策树的正则项来防止过拟合
文中对比了RGF与其他分类算法的分类结果,上表中的P、R、F分别表示准确率(precision)、召回率(recall)、F-分数(F-score)。从表中可以看出,RGF的效果是最好的。
同一厂商生产的不同磁盘模型之间也是存在差异的。本文发现,不同磁盘模型之间具有相似的SMART属性,但相同的SMART属性之间的数据分布不同。因此,直接将训练集磁盘模型上建立的预测模型用于同一厂商生产的其他磁盘模型的故障预测,不能达到最好的预测效果。
首先我们来说明迁移学习中的两个重要概念,域(domain)和任务(task)。如下图所示。
域(domain):包括特征空间(feature space)X和边缘概率分布(marginal probability distribution)P(x), x ∈X。例如,一组图片中的所有可能颜色构成一个特征空间,而各种颜色出现的频率则为边缘概率分布。
任务(task):给定一个域,任务还包含两个要素,标签空间(label space)y和预测函数(predictive function)f(·)=P(y|x)。例如,一组图片中可能出现的所有元素构成一个标签空间,而通过预测函数可以得出某幅特定图片中包含哪些元素。
同一厂商生产的不同磁盘模型之间具有一定的关联性,但它们之间存在样本选择偏差(sample selection bias)。即不同种磁盘模型之间虽然具有大量的重叠特征,但源数据实例(带标签的训练数据)和目标数据实例(无标签的测试数据)的分布不同。因此,作者采用了基于实例的迁移学习方法来消除源数据和目标数据之间的样本选择偏差,从而将某种磁盘上训练的模型应用于其他磁盘上。
具体的,对于两种磁盘模型1和2,将带标签的磁盘1实例与无标签的磁盘2实例放在一起。训练一个分类函数,使f(x)表示一个磁盘属于模型1或模型2的概率。利用分类函数f对带标签的训练数据集进行重新采样,从而消除样本选择偏差,使训练集与测试集数据服从同一分布。此时,根据重新采样的训练集,利用前文所述的RGF算法训练出函数,g(x)代表该类型磁盘的一个实例需要进行替换的概率。由于重新采样的训练集与测试集服从相同的数据分布,因此可将预测函数g直接应用于同一厂商生产的其他磁盘模型上(测试集)。
作者分别使用两个厂商生产的磁盘的数据集SgtA和HitA训练模型,并使用迁移学习的方法将两种模型分别应用于同厂商的其他磁盘数据集SgtB和HitB上。上表分别展示了直接将模型 A应用于磁盘B上以及运用迁移学习方法将模型A应用于磁盘B的替换预测的准确率、召回率、F-分数。可以看出,应用迁移学习方法后,预测准确性得到了很大提高,从而大大减少了需要训练的模型数量。
本文介绍了一套自动、精确的磁盘故障预测方法,用于判断磁盘在接下来一段时间内是否需要替换。
通过选择SMART属性、生成时间序列、解决数据不平衡性等步骤,将磁盘故障预测转化为对时间序列数据的分类问题。
之后使用RGF算法对磁盘状态进行分类,从而找出可能发生故障的磁盘。
对于同一厂商生产的不同型号的磁盘,采用迁移学习的方法进行处理,在保证预测准确性的同时减少模型训练开销。
最后,文中采用不同厂商、多种类型的磁盘SMART数据验证该方法,达到了较高的准确率和召回率。
由于长度限制,本文没有介绍细节,特此附上论文链接:
http://www.kdd.org/kdd2016/papers/files/adf0849-botezatuA.pdf
文章转载自公众号「智能运维前沿」
新一代技术+商业操作系统:
AI-CPS OS
在新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生,在行业、企业和自身三个层面勇立鳌头。
数字化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置。
分辨率革命:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊化:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大,一切都几乎变得不确定,即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)颠覆性的数字化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位。
如果不能在上述三个层面保持领先,领导力将会不断弱化并难以维继:
重新进行行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建你的企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造新的自己:你需要成为怎样的人?要重塑自己并在数字化时代保有领先地位,你必须如何去做?
子曰:“君子和而不同,小人同而不和。” 《论语·子路》
云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。
在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。
云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
人工智能通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
新一代信息技术(云计算、大数据、物联网、区块链和人工智能)的商业化落地进度远不及技术其本身的革新来得迅猛,究其原因,技术供应商(乙方)不明确自己的技术可服务于谁,传统企业机构(甲方)不懂如何有效利用新一代信息技术创新商业模式和提升效率。
“产业智能官”,通过甲、乙方价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目,面向企业CEO、CDO、CTO和CIO,服务新一代信息技术输出者和新一代信息技术消费者。
助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径,帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案,消除新一代信息技术公司与传统企业之间的信息不对称,推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。
给决策制定者和商业领袖的建议:
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机
器智能,为企业创造新商机;
开发人工智能型企业所需新能力:员工团队需要积极掌握判断、沟通及创造
性思维等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多
样性的文化也非常重要。
新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。
重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)正在经历从“概念”到“落地”,最终实现“大范围规模化应用,深刻改变人类生活”的过程。
产业智能官 AI-CPS
用新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com