在快速演进的网络安全威胁领域,勒索软件构成严峻挑战。攻击者日益采用高级加密技术(如基于Base64编码的熵值降低及间歇性局部加密),以规避传统安全措施并最大化非法收益。本研究深入探究攻击者(精于优化加密策略以逃避检测)与防御者(持续开发复杂对策保护脆弱数据资产)间的微妙对抗。研究核心在于应用在线增量机器学习算法,旨在预测文件加密活动(即使面对攻击者不断升级的复杂混淆策略)。研究依托涵盖11,928个文件(32.6 GB数据量)的广泛数据集,包括微软Word文档(.doc)、PPT(.ppt)、Excel表格(.xlsx)、多种图像格式(.jpg、.jpeg、.png、.tif、.gif)、PDF(.pdf)、音频(.mp3)及视频文件(.mp4),所有数据均由75个勒索软件家族加密生成。该数据集支持全面实证分析,评估各类机器学习分类器在多样化攻击策略下预测加密事件的效能。研究结果凸显Hoeffding Tree算法的卓越性能(其增量学习特性尤其擅长识别常规及AES-Base64对抗方法,例如用于降低熵值的加密-编码组合)。相比之下,搭载热启动功能的随机森林分类器在应对更隐蔽的间歇性加密技术时表现优异,印证定制化机器学习方案在应对动态复杂勒索软件威胁中的关键价值。

网络安全领域持续演变,反勒索软件之战堪称最具挑战的前沿之一[1]。这种以加密受害者文件并勒索赎金为特征的数字瘟疫,已成为威胁个人、机构乃至国家安全的重大隐患。网络攻击者(尤其是勒索软件开发者)与防御者间的猫鼠游戏,突显该威胁的动态本质。这种对抗呈现非对称战场特征:攻击者仅需找到单一漏洞即可占先,而防御者必须防护所有潜在入口。勒索软件开发者持续创新,精进战术、技术与程序(TTPs),利用防御体系应对新威胁的固有延迟。这种技术跃进确保其策略不仅紧跟趋势,更常具开创性,迫使防御者处于持续追赶状态。网络安全防御的核心挑战在于预判与防范未知威胁。随着攻击者推出更复杂的新型勒索软件变种,防御者被迫采取被动响应,难以在事后有效应对。例如NetWalker(又名Mailto)是2019年出现的针对Windows系统的勒索软件,主要攻击医疗、教育及政府部门。作为勒索软件即服务(RaaS)运营,其允许附属机构执行攻击并共享赎金收益。NetWalker采用无文件特性,直接在计算机内存中运行,利用合法系统工具与进程实施文件加密与数据窃取。这种隐蔽方式不仅增强规避能力,更加大从受感染系统清除勒索软件的难度。

当前挑战源于现有勒索软件检测方法(包括机器学习模型、静态分析、用户行为分析与动态分析)的局限性。尽管这些方法覆盖范围全面,但常滞后于勒索软件开发者采用的精妙且持续升级的攻击策略。例如,依赖已知恶意软件样本训练的机器学习模型难以识别零日攻击(其行为模式前所未见)[3];静态分析工具日益被采用复杂混淆技术的勒索软件规避;用户行为分析因合法活动差异导致高误报率;动态分析可能被可检测沙箱环境并改变行为的勒索软件绕过。勒索软件防御的未来正处于关键转折点,需摒弃传统检测方法,转向更具预测性与适应性的策略。本研究致力于探索攻击者削弱现有防御机制效能的复杂策略(尤其是文件系统层级的对抗),揭示攻击者如何通过熵值降低、间歇性加密与局部加密等策略规避传统防护,削弱现有防御系统效能。此外,研究深入探讨在线增量学习作为关键技术,在热数据存储环境中提升加密文件与正常文件区分能力的潜力[4]。该方法对采用间歇性与局部加密技术规避检测的勒索软件攻击尤为重要,旨在通过持续更新检测模型(注入加密与正常数据)使其动态适应勒索软件加密策略演进。研究聚焦识别可作为有效对抗措施的文件特征向量。既有相关研究多依赖基于熵值的检测[5,6,7,8]、频繁文件系统操作分析[9]与系统日志频繁模式挖掘[10],但这些防御策略可被间歇性加密、局部加密与内存映射等战术规避(详见第3节)。我们重点揭示系统内文件类型多样性的特征(尤其在在线增量机器学习框架下[11])。本文贡献包括:

  1. 系统化勒索软件开发者采用的对抗性加密技术,揭示其规避传统安全措施的能力。
  2. 识别能在文件系统层级区分加密与非加密数据的独特特征向量。
  3. 研究可降低CPU与内存密集型任务计算成本的机器学习模型。
  4. 通过实证研究,探索攻击者(最小化熵值以规避检测)与防御者(以熵值为核心指标识别加密数据)的双向策略。重点分析Base64编码对熵值降低的影响,评估攻击者利用其成功降低数据熵的可行性。
  5. 评估机器学习模型在真实勒索软件场景中的效能,旨在加密阶段阻断攻击。包括确定警报触发阈值及制定适应数据模式演进的响应策略。

本文结构如下:第2章阐述威胁模型与研究基础假设;第3章解析对抗性与防御场景策略方法论(聚焦勒索软件开发者采用的高级加密技术);第4章描述研究方法论;第5章对机器学习范式(侧重浅层与深度学习分类器)进行全面分析,通过定向微观实验评估效能,并阐述在线增量机器学习核心原理(针对文件系统层级加密文件识别);第6章综述既有文献并阐明其理论基础;第7章总结研究成果并展望未来研究方向。

​​图3:概念示意图:DeltaFile Guard展示了在线增量学习在FUSE文件系统中的应用​

成为VIP会员查看完整内容
2

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《影响力作战本体论(IOO)​》最新报告
专知会员服务
34+阅读 · 3月27日
《可解释人工智能(XAI): 数据挖掘视角》最新综述
专知会员服务
54+阅读 · 2024年1月11日
【2023新书】基于人工智能的入侵检测系统,218页pdf
专知会员服务
56+阅读 · 2023年9月8日
【干货书】机器学习导论第四版,903页pdf
专知
27+阅读 · 2022年11月26日
【2022新书】深度学习归一化技术,117页pdf
专知
27+阅读 · 2022年11月25日
「强化学习可解释性」最新2022综述
专知
11+阅读 · 2022年1月16日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员