点击蓝字
关注我们
会议资讯
ASE (The 34th IEEE/ACM International Conference on Automated Software Engineering) 是CCF A类国际学术会议,也是软件工程领域的顶级会议。
ASE 2019总共收到了445篇论文投稿,最终以20.9%的录用率收录了93篇论文。
刘金杨同学的论文Logzip: Extracting Hidden Structures via Iterative Clustering for Execution Log Compression 被本次会议录用。
本次论文也是LOGPAI团队(http://www.logpai.com)的第十篇日志分析论文。
论文介绍
日志(log)通常用于记录软件或者系统在运行时的详细信息,是软件工程中许多任务的主要数据源。随着现代软件系统向大规模、复杂的结构发展,日志已成为行业中快速增长的大数据类型之一。这些日志在实际中通常需要长时间(通常一年以上)存储,以便分析经常出现的故障或跟踪安全问题。然而,存储日志会消耗大量的存储空间和计算资源,从而导致较高的成本。因此,数据压缩对于降低日志存储成本至关重要。传统的压缩工具(例如,gzip)通常用于压缩一般的文本文件,但这些工具没有为日志文件进行针对性的设计。本文提出了一种新的有效的日志压缩方法,logzip。logzip能够通过快速的迭代聚类(Iterative Clustering)从日志中提取隐藏结构,并进一步生成中间表示,从而实现更有效的压缩。我们在五个不同类型的大型日志数据集上来评估logzip,总大小为63.6 GB。结果表明,与传统的压缩工具相比,logzip平均可以节省大约一半的存储空间。同时,logzip的设计是高度并行的,因此在实际中并不会产生过多的额外时间开销。最后,我们还分享了在华为应用logzip的经验,成功的节省了大约40%的存储空间。
更多精彩资讯,请持续关注我们