越来越多的信息以非结构化文本数据的形式在网上分享,尤其是在社交媒体上,这为补充传统的网络威胁情报来源提供了机会。由于这种大量的数据无法人工处理,我们探讨了使用机器学习来协助分析的一些可能性。我们特别关注与命名的威胁者有关的信息的检索。通过对现有的语言模型进行微调以完成特定的下游任务,基于伪自动注释的数据,我们获得了检测和提取以前未见过的威胁行为者的模型。我们在不同的条件下进行了多次评估,其中一些评估结果表明,这些模型确实能够产生在半自动分析环境下有用的结果。此外,我们认为这是一个将一般语言模型应用于特定领域任务的案例研究,并反思了一些更普遍的经验教训。
威胁情报是网络防御的一个组成部分。对技术系统的记录和监测是网络威胁情报(CTI)的传统来源。越来越多的信息在网上分享,尤其是在社交媒体上,为补充传统来源提供了一个机会,以提高网络环境中的态势感知。要大规模地利用这些新来源,需要有能力以比任何分析家都要高得多的速度筛选大量的非结构化数据。因此,有必要进行半自动分析,将分析员的思维优势与计算机的处理能力相结合。
自然语言处理(NLP)和机器学习(ML)的最新发展提供了强大和多功能的语言模型,这些模型代表了对语言的一般理解,通过大量的文本数据和计算能力获得。这些模型可以在更小的数据量上进行微调,以学习一个特定的任务。在这项工作中,我们探索了将这种语言模型应用于CTI背景的可能性,特别是我们专注于自动识别文本中提到的(以前未见过的)网络威胁者的任务。除了与CTI有关的这种能力的好处外,这也是一个将一般语言模型应用于利基和特定领域的任务的案例研究,对于这些任务,不能假定有预先存在的数据集和评估基准。