Malicious PDF documents present a serious threat to various security organizations that require modern threat intelligence platforms to effectively analyze and characterize the identity and behavior of PDF malware. State-of-the-art approaches use machine learning (ML) to learn features that characterize PDF malware. However, ML models are often susceptible to evasion attacks, in which an adversary obfuscates the malware code to avoid being detected by an Antivirus. In this paper, we derive a simple yet effective holistic approach to PDF malware detection that leverages signal and statistical analysis of malware binaries. This includes combining orthogonal feature space models from various static and dynamic malware detection methods to enable generalized robustness when faced with code obfuscations. Using a dataset of nearly 30,000 PDF files containing both malware and benign samples, we show that our holistic approach maintains a high detection rate (99.92%) of PDF malware and even detects new malicious files created by simple methods that remove the obfuscation conducted by malware authors to hide their malware, which are undetected by most antiviruses.


翻译:PDF文件对需要现代威胁情报平台来有效分析和描述PDF恶意软件的身份和行为的各种安全组织构成严重威胁。最先进的方法使用机器学习(ML)来学习PDF恶意软件特征的特征。然而,ML模型往往容易被规避攻击,其中对手模糊恶意软件代码以避免被反病毒检测。在本文中,我们为PDF恶意软件的检测找到了一个简单而有效的整体方法,利用对恶意软件的信号和统计分析。这包括将各种静态和动态恶意软件探测方法中的或孔格空间模型结合起来,以便在面临代码模糊时能够普遍保持稳健。我们使用包含恶意软件和良性样本的近30 000个PDF文件数据集,我们表明我们的综合方法保持了PDF恶意软件软件的高度检测率(99.92%),甚至检测出通过简单方法产生的新的恶意文件,这些方法可以消除恶意软件作者为隐藏恶意软件所制造的错误软件而制造的迷惑,而大多数抗病毒都无法察觉到这些软件。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
近期必读的六篇 NeurIPS 2020【因果推理】相关论文和代码
专知会员服务
72+阅读 · 2020年10月31日
【经典书】C语言傻瓜式入门(第二版),411页pdf
专知会员服务
52+阅读 · 2020年8月16日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
“CVPR 2020 接受论文列表 1470篇论文都在这了
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Game-Theoretic Malware Detection
Arxiv
0+阅读 · 2022年1月7日
q-Space Novelty Detection with Variational Autoencoders
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员