近年来,网络威胁环境发生了巨大的变化,每天都有新的威胁变体出现,大规模的协调活动也变得越来越普遍。在这项研究中,我们提出了CELEST(CollaborativE LEarning for Scalable Threat detection),这是一个用于HTTP全球威胁检测的联合机器学习框架,HTTP是最常用的恶意软件传播和通信协议之一。CELEST利用联邦学习,以便在本地保存数据的多个客户之间协作训练一个全球模型。通过与联邦学习技术相结合的新型主动学习组件,我们的系统不断发现和学习新的、不断发展的和全球协调的网络威胁的行为。我们表明,CELEST能够暴露出单个组织基本上看不到的攻击。例如,在一个具有挑战性的数据渗透恶意软件的攻击场景中,与本地模型相比,全局模型实现了精准度-召回AUC的三倍增长。我们还设计了一种中毒检测和缓解方法,即DTrust,专门为协作威胁检测领域的联邦学习而设计。我们在两个大学网络上部署了CELEST,并表明它能够以高精确度和低假阳性率检测恶意的HTTP通信。此外,在其部署过程中,CELEST在一天内检测到了一组以前未知的42个恶意URL和20个恶意域名,并被VirusTotal证实为恶意的。
图1:用于 URL 表示的联合嵌入模型训练。我们为 URL、Domain 和 Referer 生成嵌入式特征。除了嵌入式特征,我们还包括数字特征和分类特征。
图2:主动联邦学习框架