为了打击日益多变和易变的现代恶意软件,机器学习(ML)现在是对现有基于签名的恶意软件分流和识别技术的一种流行和有效的补充。然而,ML也是对手的一个现成的工具。最近的研究表明,恶意软件可以通过深度强化学习(RL)技术进行修改,以绕过基于人工智能和基于签名的反病毒系统,而不改变其原有的恶意功能。这些研究只专注于生成规避样本,并假设静态检测系统为敌人。
恶意软件检测和回避本质上形成了一个双方的猫鼠游戏。在本文中,我们模拟现实生活中的场景,按照零和多智能体强化学习(MARL)的范式,提出了第一个用于规避恶意软件检测和生成的双人竞争博弈。我们对最近的恶意软件进行的实验表明,所产生的恶意软件检测智能体对对抗性攻击更加强大。此外,所产生的恶意软件修改智能体能够产生更多的规避样本,骗过基于人工智能和其他反恶意软件技术。
关键词:对抗性学习,恶意软件分析,神经网络,强化学习,马尔科夫决策过程
图1:单次的H4rm0ny训练过程。还显示了所有系统配置的结果。从我们的数据集中选择一个恶意软件的样本。然后,它被送到一个修改的过程中。如果任何修改产生了一个恶意软件的回避样本,该样本将被训练成检测智能体。一旦样本被训练成检测智能体,修改智能体的策略就会随着对恶意软件样本和检测智能体的状态所采取的一系列行动而更新。