Out of distribution (OOD) detection remains a critical challenge in malware classification due to the substantial intra family variability introduced by polymorphic and metamorphic malware variants. Most existing deep learning based malware detectors rely on closed world assumptions and fail to adequately model this intra class variation, resulting in degraded performance when confronted with previously unseen malware families. This paper presents MADOOD, a novel two stage, cluster driven deep learning framework for robust OOD malware detection and classification. In the first stage, malware family embeddings are modeled using class conditional spherical decision boundaries derived from Gaussian Discriminant Analysis (GDA), enabling statistically grounded separation of indistribution and OOD samples without requiring OOD data during training. Z score based distance analysis across multiple class centroids is employed to reliably identify anomalous samples in the latent space. In the second stage, a deep neural network integrates cluster based predictions, refined embeddings, and supervised classifier outputs to enhance final classification accuracy. Extensive evaluations on benchmark malware datasets comprising 25 known families and multiple novel OOD variants demonstrate that MADOOD significantly outperforms state of the art OOD detection methods, achieving an AUC of up to 0.911 on unseen malware families. The proposed framework provides a scalable, interpretable, and statistically principled solution for real world malware detection and anomaly identification in evolving cybersecurity environments.


翻译:分布外(OOD)检测在恶意软件分类中仍是一个关键挑战,这主要源于多态和变形恶意软件变体带来的显著的家族内部变异。现有的大多数基于深度学习的恶意软件检测器依赖于封闭世界假设,未能充分建模此类类内变异,导致在面对先前未见过的恶意软件家族时性能下降。本文提出了MAD-OOD,一种新颖的两阶段、集群驱动的深度学习框架,用于实现鲁棒的OOD恶意软件检测与分类。在第一阶段,利用从高斯判别分析(GDA)推导出的类条件球形决策边界对恶意软件家族嵌入进行建模,从而能够在训练期间无需OOD数据的情况下,基于统计依据分离分布内样本与OOD样本。通过跨多个类中心进行基于Z分数的距离分析,以可靠地识别潜在空间中的异常样本。在第二阶段,一个深度神经网络整合了基于集群的预测、精炼的嵌入以及监督分类器的输出,以提升最终分类精度。在包含25个已知家族和多个新型OOD变体的基准恶意软件数据集上进行的大量评估表明,MAD-OOD显著优于最先进的OOD检测方法,在未见过的恶意软件家族上实现了高达0.911的AUC。所提出的框架为不断演进的网络安全环境中的实际恶意软件检测和异常识别提供了一个可扩展、可解释且基于统计原理的解决方案。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员