Malicious software (malware) classification offers a unique challenge for continual learning (CL) regimes due to the volume of new samples received on a daily basis and the evolution of malware to exploit new vulnerabilities. On a typical day, antivirus vendors receive hundreds of thousands of unique pieces of software, both malicious and benign, and over the course of the lifetime of a malware classifier, more than a billion samples can easily accumulate. Given the scale of the problem, sequential training using continual learning techniques could provide substantial benefits in reducing training and storage overhead. To date, however, there has been no exploration of CL applied to malware classification tasks. In this paper, we study 11 CL techniques applied to three malware tasks covering common incremental learning scenarios, including task, class, and domain incremental learning (IL). Specifically, using two realistic, large-scale malware datasets, we evaluate the performance of the CL methods on both binary malware classification (Domain-IL) and multi-class malware family classification (Task-IL and Class-IL) tasks. To our surprise, continual learning methods significantly underperformed naive Joint replay of the training data in nearly all settings -- in some cases reducing accuracy by more than 70 percentage points. A simple approach of selectively replaying 20% of the stored data achieves better performance, with 50% of the training time compared to Joint replay. Finally, we discuss potential reasons for the unexpectedly poor performance of the CL techniques, with the hope that it spurs further research on developing techniques that are more effective in the malware classification domain.
翻译:恶意软件( 恶意软件) 分类对持续学习( CL) 系统提出了独特的挑战。 由于每天收到的新样本数量庞大,恶意软件( 恶意软件) 的演变, 恶意软件( 恶意软件) 的分类给持续学习( CL) 系统带来了独特的挑战。 在典型的一天, 抗病毒供应商收到成千上万个独特的软件, 包括恶意软件和良性软件, 在恶意软件分类员的一生中, 超过10亿个样本可以很容易积累。 鉴于问题的规模, 使用持续学习技术的连续培训可以在减少培训和存储管理管理管理费用方面提供大量的好处。 然而, 迄今, 还没有对恶意软件分类应用于恶意软件分类任务的探索。 在本文中, 我们研究了11项 CL 技术应用于三个恶意软件, 包括任务、 类和 域级递增学习( IL ) 。 具体地说, 使用两种现实的大规模恶意软件数据集,我们评估了CL 方法在二元软件分类( Domain- IL) 和多级恶意家庭分类( Task- IL 和 LL) 类) 任务方面的绩效分类方面的绩效分析工作。 对于我们有些惊讶的学习方法, 继续学习方法, 严重地严重地大大落后,,, 继续学习方法在学习方法在50 联合测试中比常规性联合学习数据的精确性研究方法的正确性分析, 在最后的正确性研究中, 在20 % 中, 中, 中, 我们的学习了20 % 的学习方法的学习了20个案例中, 的成绩, 的成绩, 的成绩,,,, 的成绩的成绩的成绩分析方法在最后的精确性能,我们用在20 % 方法在最后的精确性研究中,我们用在20个案例中, 中, 中,我们用在20个案例中, 中, 的精确性研究方法在20个案例中, 中, 的精确性研究方法在最后的精确性研究中, 中, 中比在最后的精确性研究中, 的成绩的精确性研究方法在20 % 的精确性方法在20个案例中, 的精确性研究中, 中, 的精确性 的精确性研究中, 的