Despite advancements in machine learning for security, rule-based detection remains prevalent in Security Operations Centers due to the resource intensiveness and skill gap associated with ML solutions. While traditional rule-based methods offer efficiency, their rigidity leads to high false positives or negatives and requires continuous manual maintenance. This paper proposes a novel, two-stage hybrid framework to democratize ML-based threat detection. The first stage employs intentionally loose YARA rules for coarse-grained filtering, optimized for high recall. The second stage utilizes an ML classifier to filter out false positives from the first stage's output. To overcome data scarcity, the system leverages Simula, a seedless synthetic data generation framework, enabling security analysts to create high-quality training datasets without extensive data science expertise or pre-labeled examples. A continuous feedback loop incorporates real-time investigation results to adaptively tune the ML model, preventing rule degradation. This proposed model with active learning has been rigorously tested for a prolonged time in a production environment spanning tens of thousands of systems. The system handles initial raw log volumes often reaching 250 billion events per day, significantly reducing them through filtering and ML inference to a handful of daily tickets for human investigation. Live experiments over an extended timeline demonstrate a general improvement in the model's precision over time due to the active learning feature. This approach offers a self-sustained, low-overhead, and low-maintenance solution, allowing security professionals to guide model learning as expert ``teachers''.


翻译:尽管机器学习在安全领域取得了进展,但由于机器学习解决方案的资源密集性和技能差距,基于规则的检测在安全运营中心中仍然普遍存在。传统的基于规则方法虽然效率高,但其僵化性导致高误报或漏报,且需要持续的人工维护。本文提出了一种新颖的两阶段混合框架,以实现基于机器学习的威胁检测的民主化。第一阶段采用故意宽松的YARA规则进行粗粒度过滤,优化高召回率。第二阶段利用机器学习分类器过滤第一阶段输出中的误报。为克服数据稀缺问题,该系统利用Simula——一种无种子合成数据生成框架,使安全分析师无需广泛的数据科学专业知识或预标记样本即可创建高质量训练数据集。一个持续反馈回路整合实时调查结果,自适应地调整机器学习模型,防止规则退化。这种结合主动学习的模型已在覆盖数万个系统的生产环境中经过长期严格测试。该系统处理初始原始日志量通常达到每日2500亿条事件,通过过滤和机器学习推理将其显著减少至每日仅需人工调查的少量工单。长期实时实验表明,由于主动学习特性,模型的精确度随时间推移普遍提高。该方法提供了一种自持、低开销、低维护的解决方案,使安全专业人员能够作为专家“教师”指导模型学习。

0
下载
关闭预览

相关内容

有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员