SIEM(安全信息和事件管理)系统非常普遍,在安全作战中心的各种分析师工作流程中发挥着至关重要的作用。然而,现代 SIEM 面临着一个巨大的挑战:它们仍然无法减轻分析人员在分析以自然语言编写的 CTI(网络威胁情报)报告时所涉及的重复性任务。本项目旨在开发一种人工智能体,以取代分析 CTI 报告所涉及的劳动密集型重复性任务。该智能体利用了 LLM(如 GPT-4)的革命性能力,但不需要任何人工干预。
网络犯罪给政府和行业造成了巨大损失。2023 年,美国消费者和企业的损失超过 125 亿美元[5]。其中,45% 的企业遭遇过基于云的数据泄露或审计失败 [3]。这促使企业更加重视安全运营中心(SOC)的预防性攻击能力。作为公司安全战略的核心,SOC 受托监控和分析企业的网络、设备、装置和信息库。其主要目标是不断加强组织的安全态势,确保其宝贵资产得到保护。
在过去的二十年里,SOC 的运作一直在不断发展,一个明显的标志就是 SIEM(安全信息和事件管理)系统的普及和显著发展。SIEM 系统配备了实时关联引擎,有助于及时发现对公司基础设施的任何攻击。该引擎负责将日志与数据库中存储的相关规则进行比较,以检查是否有任何匹配。当安全分析师发现公司可能成为黑客组织的攻击目标时,迅速建立和更新相关规则以应对这些威胁就成为 SOC 的首要任务。作为第一道防线,这一主动步骤至关重要,它可确保 SOC 能够迅速做出反应,缓解潜在的安全漏洞。为建立相关规则,安全分析师通常会参考网络威胁情报 (CTI)。CTI 可能来自 FireEye 和 CrowdStrike 等知名网络安全公司的报告。CTI 还可能来自 Mitre ATT&CK[1] 等免费安全平台或 Telegram 或 X(Twitter)等平台上安全分析师之间的交流。
如今,SIEM 系统在各种分析师工作流程(例如,识别相关威胁模式的工作流程、安全监控工作流程、事件响应工作流程)中发挥着至关重要的作用。一个非常重要的 SIEM 系统演变来自迅速崛起的威胁情报市场。(预计未来几年该市场将快速增长,到 2028 年将达到 219.2 亿美元[2])。这种演变使安全操作从简单的警报系统转变为能够利用威胁情报进行预测性威胁分析等目的的高级机制。
尽管取得了这些进步,但现代 SIEM 仍面临着巨大挑战:它们仍无法让分析人员从分析以自然语言编写的 CTI 报告所涉及的劳动密集型重复性任务中解脱出来。CTI 通常以报告或博文的形式发布,这就要求安全分析师花费大量时间进行阅读和分析。这一过程也增加了对攻击的响应时间[9]。由于这种无能为力的情况,SIEM 一直在努力扩大 CTI 报告的庞大语料库。尽管现有研究(如 [4, 6, 13, 8])应用机器学习技术从安全相关文档(如策略)中自动提取 “金块”,但不幸的是,这些针对特定领域的人工智能模型在泛化方面存在不足。
在本文中,试图开发一种人工智能体,以取代分析 CTI 报告所涉及的劳动密集型重复性任务。该智能体利用了 LLM(如 GPT-4)的革命性能力,但不需要任何人工干预。有了我们的智能体,SOC 分析师就可以从重复性任务中解脱出来,把大部分时间用在创造性任务上。
总之,做出了以下贡献:
提出了一种新的人工智能体,可自动从 CTI 报告中提取重要信息并生成 Regex。
为确保生成的 Regex 的准确性,采用了四步流程来过滤潜在的假阳性和假阴性。
智能体还能提供关系图,描述 CTI 报告中不同 CTI 之间的联系。
据所知,该项目迈出了人工智能体取代重复性任务的第一步,无需任何人工干预。这也是首次利用 LLM 的革命性能力,使 CTI 分析工作流程大大提高自动化程度。