摘要

越来越多的信息以非结构化文本数据的形式在网上分享,尤其是在社交媒体上,这为补充传统的网络威胁情报来源提供了机会。由于这种大量的数据无法人工处理,我们探讨了使用机器学习来协助分析的一些可能性。我们特别关注与命名的威胁者有关的信息的检索。通过对现有的语言模型进行微调以完成特定的下游任务,基于伪自动注释的数据,我们获得了检测和提取以前未见过的威胁行为者的模型。我们在不同的条件下进行了多次评估,其中一些评估结果表明,这些模型确实能够产生在半自动分析环境下有用的结果。此外,我们认为这是一个将一般语言模型应用于特定领域任务的案例研究,并反思了一些更普遍的经验教训。

引言

威胁情报是网络防御的一个组成部分。对技术系统的记录和监测是网络威胁情报(CTI)的传统来源。越来越多的信息在网上分享,尤其是在社交媒体上,为补充传统来源提供了一个机会,以提高网络环境中的态势感知。要大规模地利用这些新来源,需要有能力以比任何分析家都要高得多的速度筛选大量的非结构化数据。因此,有必要进行半自动分析,将分析员的思维优势与计算机的处理能力相结合。

自然语言处理(NLP)和机器学习(ML)的最新发展提供了强大和多功能的语言模型,这些模型代表了对语言的一般理解,通过大量的文本数据和计算能力获得。这些模型可以在更小的数据量上进行微调,以学习一个特定的任务。在这项工作中,我们探索了将这种语言模型应用于CTI背景的可能性,特别是我们专注于自动识别文本中提到的(以前未见过的)网络威胁者的任务。除了与CTI有关的这种能力的好处外,这也是一个将一般语言模型应用于利基和特定领域的任务的案例研究,对于这些任务,不能假定有预先存在的数据集和评估基准。

图4-1:为人工评估机器学习模型而设计的仪表板。除其他外,它显示了在不同阈值下被归类为包含威胁行为者的推文的百分比(饼图),以及在选定的时间间隔内,威胁行为者候选人的前十名名单。
成为VIP会员查看完整内容
26

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【AI+军事】 《冲突监测》附论文
专知会员服务
46+阅读 · 2022年4月27日
用LaTex写论文经验分享
极市平台
3+阅读 · 2021年9月10日
2018 年 Top 10 影响力 AI 研究论文
AI科技评论
41+阅读 · 2019年1月6日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
论文 | 深度学习实现目标跟踪
七月在线实验室
48+阅读 · 2017年12月8日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
91+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年6月13日
Arxiv
30+阅读 · 2021年8月18日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
13+阅读 · 2021年5月25日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
91+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员