Log data anomaly detection is a core component in the area of artificial intelligence for IT operations. However, the large amount of existing methods makes it hard to choose the right approach for a specific system. A better understanding of different kinds of anomalies, and which algorithms are suitable for detecting them, would support researchers and IT operators. Although a common taxonomy for anomalies already exists, it has not yet been applied specifically to log data, pointing out the characteristics and peculiarities in this domain. In this paper, we present a taxonomy for different kinds of log data anomalies and introduce a method for analyzing such anomalies in labeled datasets. We applied our taxonomy to the three common benchmark datasets Thunderbird, Spirit, and BGL, and trained five state-of-the-art unsupervised anomaly detection algorithms to evaluate their performance in detecting different kinds of anomalies. Our results show, that the most common anomaly type is also the easiest to predict. Moreover, deep learning-based approaches outperform data mining-based approaches in all anomaly types, but especially when it comes to detecting contextual anomalies.


翻译:日志数据异常是信息技术操作人工智能领域的核心组成部分。 然而,大量现有方法使得很难选择适合特定系统的方法。 更好地了解各种异常,以及哪些算法适合检测这些异常,将支持研究人员和信息技术操作者。 虽然对异常现象有一个共同的分类方法已经存在,但尚未具体应用于日志数据,指出该领域的特点和特殊性。 在本文中,我们为不同类型的日志数据异常提供分类方法,并在标签数据集中引入分析此类异常现象的方法。 我们对三种通用基准数据集“雷鸟”、“精神”和“BGL”进行了分类,并培训了五种最先进的、不受监督的异常检测算法,以评估其在检测不同异常现象方面的性能。我们的结果显示,最常见的异常类型也是最容易预测的。此外,深层次的学习方法在所有异常类型中都超越了基于数据挖掘的方法,特别是在发现背景异常时。

0
下载
关闭预览

相关内容

分类学是分类的实践和科学。Wikipedia类别说明了一种分类法,可以通过自动方式提取Wikipedia类别的完整分类法。截至2009年,已经证明,可以使用人工构建的分类法(例如像WordNet这样的计算词典的分类法)来改进和重组Wikipedia类别分类法。 从广义上讲,分类法还适用于除父子层次结构以外的关系方案,例如网络结构。然后分类法可能包括有多父母的单身孩子,例如,“汽车”可能与父母双方一起出现“车辆”和“钢结构”;但是对某些人而言,这仅意味着“汽车”是几种不同分类法的一部分。分类法也可能只是将事物组织成组,或者是按字母顺序排列的列表;但是在这里,术语词汇更合适。在知识管理中的当前用法中,分类法被认为比本体论窄,因为本体论应用了各种各样的关系类型。 在数学上,分层分类法是给定对象集的分类树结构。该结构的顶部是适用于所有对象的单个分类,即根节点。此根下的节点是更具体的分类,适用于总分类对象集的子集。推理的进展从一般到更具体。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
32+阅读 · 2021年9月16日
专知会员服务
88+阅读 · 2021年6月29日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【2020新书】C++20 特性 第二版,A Problem-Solution Approach
专知会员服务
58+阅读 · 2020年4月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机经典算法回顾与展望——机器学习与数据挖掘
中国计算机学会
5+阅读 · 2019年10月11日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
0+阅读 · 2022年1月28日
Arxiv
0+阅读 · 2022年1月27日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
5+阅读 · 2018年1月14日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
计算机经典算法回顾与展望——机器学习与数据挖掘
中国计算机学会
5+阅读 · 2019年10月11日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员