一次性付费进群,长期免费索取教程,没有付费教程。
教程列表见微信公众号底部菜单
进微信群回复公众号:微信群;QQ群:460500587
微信公众号:计算机与网络安全
ID:Computer-network
要想真正实现主动防御的思想,其中最重要的一环就是要加入安全预警技术,即根据当下已检测到的报警信息预测未来即将发生的攻击行为,真正建立动态的响应机制,以检测、预测、响应、防护为组成过程,为网络系统的安全提供实时、动态、快速响应且主动的安全屏障。网络安全态势的预测是指根据网络安全态势的历史信息和当前状态对网络未来一段时间的发展趋势进行预测,它是态势感知的一个基本目标。由于网络攻击的随机性和不确定性,使得以此为基础的安全态势变化是一个复杂的非线性过程,采用传统预测模型方法已经逐渐不能满足需求,越来越多的研究正在朝智能预测方法发展。这里的智能与人工智能相关,又不限于此,其不仅包括通过建立机器的自动感知和自学习机制,使其具有思维能力和行为能力,还包括对复杂复合式网络攻击行为的识别和预测。
人工智能的方法对非线性时间序列数据具有很强的逼近和拟合能力,许多研究人员将其应用于非线性时间序列的预测中并取得了较好的效果,典型的如神经网络、支持向量机、遗传算法等智能预测方法。此类方法的优点是具有自学习能力,中短期预测精度较高,需要较少的人为参与。但是也存在一定的局限,如神经网络存在泛化能力弱,易陷入局部极小值等问题;支持向量机的算法性能易受惩罚参数、不敏感损失参数等关键参数的影响;而遗传算法的进化学习机制较为简单等。本文将对几种常见的人工智能用于态势预测的方法进行介绍和说明。
对网络攻击态势的预测集中体现了主动防御的概念,是主动防御技术中的关键所在。由于复合式攻击已成为当前网络攻击行为中的主流方式,且在未来相当长一段时期内有继续增长扩大的趋势,因此针对复合式攻击的识别与预测是网络安全态势感知领域面临的一个重要问题,也是本文关注的内容之一。
神经网络预测是目前最常用的网络安全态势预测方法之一,神经网络预测模型属于人工智能领域,它是一种机器学习工具,具有良好的函数拟合性、对目标样本的自学习和自记忆功能,还具有并行处理、高度容错和极强的函数逼近能力等特性,可以获取复杂非线性数据的特征模式。利用神经网络预测态势的原理为:首先以一些输入输出数据作为训练样本,通过网络的自学习能力调整权值,构建态势预测模型;然后运用模型,实现从输入状态到输出状态空间的非线性映射。
神经网络全称为人工神经网络,它是一种模拟大脑神经突触联结的结构进行信息处理的数学模型,是对人脑的抽象和简化,进而反映人脑的基本特征。人工神经网络即大量并行分布的处理机,由简单的处理单元(或称神经元)所组成,这种处理机具有存储和应用经验知识的自然特性,不仅可以通过学习过程,利用神经网络从外部环境中获取知识,其内部神经元还可用来存储获取的知识。神经网络具有很强的自学习能力,可为新的输入产生合理的输出,具有在学习过程中不断完善自己和创新的特点。神经网络具有非线性、很强的鲁棒性和容错性,善于联想、概括、类比和推广,而且局部的损伤不会影响整体结果。人工神经网络由大量神经元相互连接构成。一个典型的人工神经元模型由输入X=(x1,x2,…,xn)、网络权值W=(w1,w2,…,wn)、阈值θ、求和单元∑、激励函数f、输出out组成。如图1所示。
图1 典型人工神经网络模型
人工神经网络的互联方式主要包括前向网络、有反馈的前向网络、层内相互结合的前向网络、相互结合型网络(包括全互联和部分互联类型)等类型。在人工神经网络中,神经元处理单元可表示不同的对象,如特征、字母、概念或者一些有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接收外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元则是处于输入和输出单元之间,不能由系统外部观察的部分。神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。
人工神经网络是涉及神经科学、思维科学、人工智能、计算机科学等多个领域的交叉学科。它在不同程度和层次上模仿人脑神经系统的信息处理功能,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。
神经网络对信息的处理一般都需要学习阶段和执行阶段结合,才能实现合理的处理过程。神经网络对信息的学习是为了取得对信息的适应特性或信息的特征,而神经网络对信息的执行过程则是对特征的检索或者是对信息的分类过程。学习和执行是神经网络不可缺少的两个处理和功能,神经网络的各种有效的行为和作用都是通过这两个关键过程来实现的。通过学习阶段,可以把神经网络训练成对某种信息模式特别敏感,或者具有某种特征的动力学系统;通过执行阶段,可以用神经网络识别有关信息模式或特征。
神经网络的学习规则可以粗略分为以下三类:
在神经网络学习中,最基本和最常用的方法为感知器学习法,其原理如图2所示。
u=∑wixi=w1x1+w2x2+…+wnxn
再将实际输出信号Y和u进行比较,从而产生误差信号e。即权值调整机构根据误差e对学习系统的权系数进行修改,修改方向应使误差e变小,不断进行下去,直到误差e为0,此时实际输出值u和期望输出值Y完全一样,则学习过程结束。
线性神经网络由一个或多个线性神经元组成,是一种层次性前向网络,其传递函数为线性函数,学习算法为“最小均方(LMS)算法”。如果定义预测训练样本为{p1,t1},{p2,t2},…,{pq,tq},其中,pq为网络输入,tq为相应的期望输出,则算法中定义的训练误差为:
LMS也就是最小二乘法算法,是通过调整线性神经网络的权重和阈值,使均方差最小。线性神经网络适用于对线性关系的数据进行预测。
BP神经网络全称为Back-Propagation Neural Network,即反向传播网络,是指基于误差反向传播算法的多层前向神经网络,它是D.E.Rumelhart及其研究小组在1986年研究提出的,是目前应用最广泛的神经网络模型之一。
BP神经网络通常采用基于BP神经元的多层前向神经网络结构形式,由输入层、若干个隐含层和输出层所构成,各层次之间的神经元形成全互联连接,各层次内的神经元之间没有连接。当供给网络一组学习样本后,神经元的激活值从输入层经过各隐含层向输出层传播,输出层的神经元获得输出。然后以期望输出和实际输出的误差为反方向,由输出层经过各隐含层到输入层,调节、修正网络连接权值。随着这种根据误差逆向传播来不断修正权值,网络对输入模式的适应性不断上升。典型的三层BP网络模型如图3所示。
图3 典型BP神经网络模型
BP神经网络是前向网络的核心部分,体现了神经网络最精华、最完美的内容。BP神经网络可以实现输入和输出的任意非线性映射,可以实现自学习且结构简单,这使得它在预测领域得到广泛应用。其缺点是收敛速度慢、易陷入局部最优以及初始网络参数不易确定等缺点,访问认证机制中包含严重缺陷使其很容易受到攻击。
Elaman神经网络的非线性状态空间表达式为:
图4 自组织特征映射网络学习图
自组织特征映射网络由于有上述作用,因此适用于数据的量化,故也称作学习向量量化器。
图5 BP神经网络结构和学习过程
BP算法训练过程的基本步骤可描述如下:
⑥ 计算各连接权的修正值,其中η是学习率,较小的η可以保证训练能更稳定地收敛,较大的η可以在某种程度上提高收敛速度,xji是节点i到节点j的输出。
总的来说,神经网络具有自学习、自适应性和非线性处理等优点。神经网络内部神经元之间复杂的连接和可变的连接权值矩阵使得模型运算中存在高度的冗余,因此网络具有良好的容错性和稳健性。虽然神经网络也有局限性,如在学习样本数量有限时,学习过程误差易收敛于局部极小点,学习精度难以保证;当学习样本数量很多时,又陷入维数灾难,泛化性能不高,但利用神经网络方法进行网络安全态势预测,仍不失为一种较好的方法。
支持向量机预测是一种基于统计学习理论的模式识别方法,专门研究小样本情况下机器学习的规律,它由Vapnik于1995年首次提出。其基本原理是通过一个非线性映射将输入空间向量映射到一个高维特征空间,并在此空间上进行线性回归,从而将低维特征空间的非线性回归问题转换为高维特征空间的线性回归问题来解决。与其他方法相比,支持向量机预测绝对误差小,保证了预测的正确趋势率,能准确预测网络安全态势。支持向量机是目前网络安全态势预测的研究热点。
1995年,统计学习理论的发明者Vapnik首次提出了支持向量机这一概念,它是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。由于当时研究尚不十分完善,在解决模式识别问题中往往趋于保守,这些研究一直没有得到充分的重视。直到20世纪90年代,统计学习理论的实现和神经网络等较新兴的机器学习方法的研究遇到一些困难,例如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得支持向量机迅速发展和完善,并在许多领域都取得了成功应用。
支持向量机方法的基本思想基于1909年Mercer的核展开定理,通过非线性映射,把样本空间映射到一个高维乃至于无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法,以解决样本空间中的高度非线性分类和回归等问题。支持向量机是统计学习理论中最实用的一部分,也是统计学习理论的核心和重点。它通过建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。支持向量机的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但该办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,如果选用适当的核函数,就可以得到高维空间的分类函数。
支持向量机是一种新颖的小样本“机器”学习方法,比较适合解决本质上非线性的回归问题。其本质是通过对各种典型空间的充分描述,来表征因子群与预报对象之间的关系,可以说是一种基于事实的推理,具有从海量信息中自动识别并提取关键信息的特点。
支持向量机的主要特点是:
● 它是结构风险最小化原则的具体实现,因此具有良好的推广能力。
● 其算法最终将转化为一个二次优化问题。从理论上说,得到的将是全局最优解,从而解决了神经网络中无法避免的局部最小化问题。
假设在这些均匀分布的训练样本中存在一些未知分布的F(x,y),F(x,y)都是独立同分布的。
一个学习机器的任务就是找到xi→yi∈{+1,-1}的映射关系。因此,学习机器可定义为一系列x→f(x,α)∈{+1,-1}的集合,其中α是可变参数。对于一个给定的输入x和被选择的参数α,学习机器的输出保持不变,都为f(x,α)。不同的α有与之相对应的一个样本训练器。学习机器预期的预测误差,即期望风险R为:
期望风险是判断一个学习机器质量好坏的最重要标准,但要依赖联合概率的信息,而实际问题中无法得到,于是引入经验风险来近似表示期望风险。经验风险表示的是训练集上能测量到的误差,公式为:
根据统计学习理论中关于函数集的推广性的界的结论,期望风险和经验风险之间至少以不小于1-η(0≤η≤1)的概率存在:
神经网络是基于Remp(α)最小化的,它满足对已有训练数据的最佳拟合,在理论上可通过增加算法的规模使得Remp(α)不断降低以至为0。但是,这样使得算法的复杂度增加,VC维数h增加,从而使
增大,导致实际风险R(α)增加,引起过学习问题。通过选择合适的维,使维数与经验风险取得平衡,以避免过学习。结构风险最小化原则
回归就是估计出自变量和因变量之间的函数关系,然后根据这个函数,把待预测的样本输入进去就可以得到未来的预测值。支持向量机用于回归估计问题时称为支持向量回归机,它是基于支持向量机理论建立的一种回归技术。支持向量机在回归算法的研究方面有极好的性能。支持向量回归机主要有两种类型:线性支持向量回归机和非线性支持向量回归机。
于是这成为一个二次规划问题,通常不直接求解,而是求解它的拉格朗日对偶问题。选择损失函数为ε–不敏感损失函数
,里面的ε是事先取定的一个正数。通过增加或减小ε的值,可以控制支持向量的个数。为此,引入拉格朗日函数:
b=yi-〈ω·xi〉-ε αi∈[0,C]
b=yi-〈ω·xi〉+ε αi*∈[0,C]
对于非线性回归,首先使用一个非线性映射φ(·)将样本的输入xi由输入空间X映射到高维特征空间H中,并在特征空间H构造线性支持向量回归机,这样在高维特征空间中的线性回归就对应于低维输入空间中的非线性回归。其具体实现是通过由映射函数φ(·)在满足Mercer条件下构成的核函数K(xi,xj)=(φ(xi)·φ(xj))来实现的,这样就免去了在高维空间中计算复杂的点积运算,从而避免维数灾难。
目标函数的第一项使函数更为平坦,从而提高泛化能力,第二项则能减少经验风险。
为了求解该二次规划问题,引入拉格朗日函数
≥0,i=1,2,…,l;C用于控制模型的复杂度和逼近误差的折中,越大则对数据的拟合程度越高;ε用于控制回归逼近误差和模型的泛化能力。
支持向量机实现的就是包含一个隐含层的多层感知器,每个基函数中心对应一个支持向量,隐含层节点数和输出权值都是由算法自动确定的。
总的来说,支持向量回归就是通过用内积函数定义的非线性变换,将输入空间变换到高维空间,并在该高维空间中解决回归函数的学习过程。它在形式上类似于神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量,其权值即为对应的拉格朗日乘子,支持向量机结构如图6所示。
图6 支持向量机结构图
选取适当的核函数是用支持向量机解决回归问题的一个关键因素,也是支持向量机理论研究的核心问题。经证明,只要满足Mercer条件的对称函数即可作为核函数。核函数的作用就是使样本投影到一个高维的空间中以将其转化为一个线性回归问题,因此核函数的选取直接影响了模型的泛化能力。在实际应用中,最常用的核函数有以下几种。
K(x,x')=((x,x')+c)d,c≥0,d=1,2,…
当c>0时为非齐次多项式核,当c=0时则变成齐次多项式核。
K(x,x')=(x,x')d,d=1,2,…
非齐次多项式核应用更为普遍,因为它避免了Hessian矩阵为零的情况。
除了以上常用的核函数外,还有B样条核等类型。
的权重就小,系统的泛化能力变差,出现“过学习”现象。在每个数据子空间寻找一个合适的C值,才能使得支持向量机推广性能最好。
不敏感参数ε的影响:该参数控制ε不敏感带的宽度,影响着支持向量的数目。ε值选得太小,回归估计精度高,但支持向量数增多。ε值选得太大,回归估计精度降低,支持向量数减少,支持向量机的稀疏性大。因此,在标准支持向量机中,参数ε和C通过不同的方式控制着模型的复杂度。
核参数σ的影响:该参数反映了训练样本数据的分布或范围特性,它确定了局部邻域的宽度。较大的σ意味较低的方差。
综上所述,支持向量机性能优良与否,同模型中参数C、ε和σ等有很大关系。对于应用者来说,主要问题是如何根据训练样本集选择合适的模型参数,以保证建立模型有很好的推广性能。在固定核函数情况下,模型参数的调整与确定成为支持向量回归机设计的关键环节。
人工免疫就是研究、借鉴和利用生物免疫学原理、机制而发展起来的各种信息处理技术、计算技术及其在工程和科学中应用而产生的各种智能系统的统称,其研究涉及医学免疫学、计算机科学、人工智能、系统工程、模式识别、控制工程等学科,是典型的交叉学科。目前,人工免疫系统已发展成为人工智能研究领域的重要分支。与上述智能方法相比,人工免疫系统具有全局优化、收敛速度快等优点。它继承了生物免疫系统的自学习、自适应、自组织和免疫记忆等优化学习机理,适合于解决网络安全态势预测问题,其拟合和预测结果都能较好地克服网络安全态势时间序列大幅度变化的影响。
人工免疫系统是模仿自然免疫系统功能的一种智能方法,它实现了一种受生物免疫系统启发、通过学习外界物质的自然防御机理的学习技术,提供了噪声忍耐、自组织、无教师学习、记忆等进化学习机理,结合了分类器、神经网络和机器推理等系统的优点,因此提供了解决问题的新颖方法和途径。为了适应环境的复杂性和异敌的多样性,生物免疫系统采用单纯冗余策略,这是一种具有高稳定性和可靠性的方法。免疫系统是由各免疫子网络构成的一个大规模网络,机理很复杂,尤其是其所具有的信息处理与机体防御功能为工程应用提供了新的概念、理论和方法。人工免疫模型相关机理如下所示。
免疫系统的记忆作用是广为人知的,如患了一次麻疹后,第二次感染了同样的病毒就不会发病。这种记忆作用是由记忆T细胞和记忆B细胞所承担的,在一次免疫响应后,如果受同类抗原再次刺激,在短时间内免疫系统具有识别各种抗原并将特定抗原排斥掉的学习记忆机制。免疫系统有着与神经网络不同的记忆机制。
细胞免疫和体液免疫之间的关系如图7所示,抗原、抗体、细胞、辅助细胞和抑制细胞之间的反应体现了免疫反馈机理。
图7 细胞免疫和体液免疫
在图7中,IL+表示TH细胞分泌白细胞介素,IL-表示TS细胞分泌白细胞介素。当抗原进入机体并经周围细胞消化后,将信息传递给T细胞,即传递给TH细胞和TS细胞,TS细胞用于抑制TH细胞的产生,然后共同刺激B细胞。经过一段时间后,B细胞产生抗体以清除抗原。当抗原较多时,机体内的TH细胞也较多,而TS细胞却较少,从而产生的B细胞会多些。随着抗原的减少,体内TS细胞增多,它抑制了TH细胞的产生,则B细胞也随之减少。经过一段时间后,免疫反馈系统便趋于平衡。利用这一机理,可提高进化算法的局部搜索能力,突生出具有特异行为的网络,从而提高个体适应环境的能力。
S(k)=TH(k)-TS(k)
遗传和免疫细胞在增殖中的基因突变形成了免疫细胞的多样性,这些细胞的不断增殖形成无性繁殖系。细胞的无性繁殖称为克隆。在机体内免疫细胞的多样性能达到这种程度,以至于当每一种抗原侵入机体,都能在机体内选择出能识别和消灭相应抗原的免疫细胞克隆,使之激活、分化和增殖,进行免疫应答以最终清除抗原,这就是克隆选择。但是,克隆即无性繁殖中父代与子代间只有信息的简单复制,而没有不同信息的交流,无法促使进化。因此,需要对克隆后的子代进行进一步处理。
免疫系统中抗体的种类要远远大于已知抗原的种类,解释抗体的多样性有种系学说和体细胞突变学说。其主要原因可能是受基因片段多样性的连接以及重链和轻链配对时等复杂机制所控制。该机理可以用于搜索的优化,它不尝试于全局优化,而是进化地处理不同抗原的抗体,从而提高全局搜索能力,避免陷入局部最优。
免疫系统所具有的无中心控制的分布自治机理、自组织存储机理、免疫耐受诱导和维持机理以及非线性机理均可用于建立人工免疫系统。
人工免疫算法主要分为两大类,一是基于群体的免疫算法,二是基于网络的免疫算法。在基于群体的免疫算法构成的系统中,构成元素和系统所处的环境之间可以直接联系,构成元素之间只能间接地发生联系;而在基于网络的免疫算法构成的系统中,构成元素的全体都能够直接相互作用。下面介绍几种用于网络异常检测的典型算法,如基于群体的免疫算法中的否定选择算法和克隆选择算法,以及基于网络的免疫网络算法。
1994年,美国新墨西哥大学Forrest教授基于生物免疫中T细胞培育的否定选择机理提出了否定选择算法,其在处理异常检测问题时表现较好。下面来看看它在异常检测处理时的算法过程。否定选择算法主要包括两个阶段,第一阶段为检测器生成阶段,如图8所示。首先通过随机的方式产生字符串,作为候选检测器,然后将候选检测器与自体集合进行匹配。如果能够与自体集合中的任意一个“自我”的亲和力大于预设的亲和力阈值,那么就认为这个候选检测器能够匹配自我,将其从检测器集合中删除;如果候选检测器不能与自体集合中的任意“自我”匹配,则说明该检测器对自体耐受,将其添加到有效检测器集合中。
图8 否定选择算法——第一阶段
第二阶段为检测阶段,如图9所示。对输入系统的任何一个被检测字符串,与所有有效检测器进行匹配。如果能够与其中任意一个检测器的亲和力超过预设的亲和力阈值,就认为该串成功匹配了检测器,被检测为入侵;如果这个字符串与检测器集合中任意检测器都不匹配,则说明该串属于自体。
图9 否定选择算法——第二阶段
否定选择算法的实现步骤如下:
● 随机生成长度为L的候选检测器,用这个新生成的候选检测器与自体集合S匹配。
● 重复前两步的过程,直到R中的检测器数量达到给定的值。
● 利用经过耐受的检测器集合R对受保护的数据进行检测。
图10 克隆选择算法
● 产生一个候选解集合,记为P,这个候选解集合由记忆细胞M的子集与剩余群体Pr组成。
● 从候选解集合P中选出亲和力最高的n个个体组成集合Pn。
● 选出P中d个低亲和力抗体用d个新生成的抗体来取代,从而保持群体的多样性。
在实际的异常检测应用中,上述标准克隆选择算法往往要求系统处于相对静止的状态下进行,而计算机网络系统是一个动态的实时变化的系统,适应性较差,阻碍了标准克隆选择算法的应用。为了解决标准克隆选择算法适应性较差的问题,Kim和Bentley在2002年提出了动态克隆选择算法,对上述算法进行了改进。
免疫网络理论首先由Jerne于1974年提出,免疫网络理论概括地描述了生物免疫系统中淋巴细胞活动、自然抗体产生及选择、耐受、自体与非自体识别、记忆及免疫系统进化等特点。其主要思想是将整个免疫系统看作由免疫网络中的所有免疫细胞构成的网络,该网络内的免疫细胞可以相互刺激与协调。免疫网络中重要的不仅仅是细胞分子单个个体,还有个体之间的相互作用。目前典型的免疫网络理论模型是Timmis等提出的资源受限人工免疫网络模型以及De Castro等人提出的ai Net人工免疫网络。
Timmis等人于2000年提出了资源受限人工免疫网络学习算法,并将其应用于数据的聚类分析。在RLAIS模型中提出了识别球ARB的概念,RLAIS由一些识别球和它们之间的联系构成,每个识别球可获得不定数目的B细胞且获得的数量存在上限值,系统中只存在有限数量的B细胞,识别球ARB通过亲和力值的竞争来获取B细胞,而通过竞争仍然无法获得B细胞的识别球则会被清除。系统不断地对所接收的数据进行训练,最后被保留下的数据称为记忆识别球,也代表了数据最终的压缩及分类方法。在整个学习过程中,采用了克隆选择和高频变异来提高数据的多样性。整个学习过程可在一定的条件下结束,也可继续不断学习,不断加入新的数据进入系统并进行学习,旧数据集合中的数据重复出现并不会对现有数据的学习产生影响,即一旦一个数据成为记忆数据就不会被清除,这使得整个过程具备持续学习的能力,但也造成了压缩数据过于庞大。
De Castro提出一种名为ai Net的免疫网络。该免疫网络的主要目的是对大型数据集合的聚类及自学习能力进行研究,进而说明人工免疫系统具备强大的数据计算与处理能力,并利用人工免疫理论研究开发出可对大量数据进行处理的计算工具。De Castro等人提出的ai Net是最具影响力的人工免疫网络,应用领域广泛。该网络具有减少数据冗余度、描述数据结构、根据数据特征进行分类等特性。ai Net免疫网络有一个加权界图,免疫网络中的所有免疫细胞被称为细胞节点集合,节点之间不需要全部连接,节点之间的连接称为节点对,所有节点对的集合称作免疫网络的边界。给每对相连接的边界分配的权值也称为连接强度。ai Net免疫网络是进化的,它主要通过进化策略对网络的动态及可塑性进行控制;同时,ai Net也是连接的,因为它需要定义一个免疫网络的连接强度矩阵,并利用所定义的矩阵来衡量免疫网络中免疫细胞之间的亲和力。ai Net免疫网络把整个免疫系统看成一个由免疫细胞组成的能够相互作用的网络,通过免疫细胞之间的连接相互协作,保持免疫网络中的细胞处于稳定状态。
● 基于攻击行为因果关系的复合式攻击预测方法。
● 基于贝叶斯博弈理论的复合式攻击预测方法。
● 基于CTPN的复合式攻击预测方法。
● 基于意图的复合式攻击预测方法。
该方法的实现过程为:
表3 表C(算法过程的中间表)
基于贝叶斯博弈理论的复合式攻击预测方法是基于贝叶斯法则和博弈论的。该方法需要提前将告警信息之间的因果关系映射到贝叶斯网络中,建立基于贝叶斯博弈的复合式攻击预测模型,再根据告警信息识别攻击者的攻击意图并预测攻击,然后根据攻击者已经实施的攻击行为,依照贝叶斯法则不断修正攻击行为节点上的概率值,最后以上述概率值为基础分析攻击者和防御者双方的收益,预测理性的攻击者在下一个博弈阶段选择攻击的概率和防御者在下一个博弈阶段选择防御的概率。
采用贝叶斯博弈理论预测复合式攻击的原因主要为:
博弈者:该模型包含X和Y两个博弈者。
先验概率:博弈者X认为博弈者Y是某种类型的先验概率。
行动空间:博弈者X或者博弈者X和博弈者Y依据各自所属类型可以选择的行动。
收益函数:根据博弈者的类型和选择的行为,博弈者可获得的收益。
私有信息:博弈者X知道其自身类型,而博弈者Y仅知道自身类型,而不知道博弈者X的信息是否为合法节点。
共同知识:博弈者X知道博弈者Y的类型的先验概率、类型依存行动空间及类型依存收益函数。
后验信息修正:博弈者X根据博弈者Y已经实施的攻击行为,对博弈者Y是某种类型的后验概率进行修正。
根据上述七元组的表述,基于贝叶斯博弈理论的复合式攻击预测模型示意图如图11所示。
图11 基于贝叶斯博弈理论的复合式攻击预测模型
该方法建立了有效的复合式攻击预测模型,为主动预测和主动防御的研究和实现奠定了基础。该方法能够根据攻击者已经实施的攻击行为,预测当前网络存在攻击的可能性。但是该方法的局限性在于,目前研究只建立在一对一的攻击防御模式,也就是二人博弈模型上,对现实中存在的多对一和一对多攻防模式并不适用。
∑={ci|i=1,2,…,Nc}为颜色集合,非空有限。
P={pi|i=1,2,…,Np}为状态集合,有限集。
D={di|i=1,2,…,Nd}为变迁集合,有限集。
A为有限集,且
当且仅当变迁集合D同时满足着色Petri网的引发条件和逻辑公式这两个条件时,才会将D引发。基于CTPN的复合式攻击预测方法的攻击过程如图12所示。
图12 基于CTPN的复合式攻击预测方法的攻击过程
图13 攻击意图和攻击行为的关系
攻击意图是指攻击者进行恶意行为所要达到的目的。单步攻击是指某一攻击A行为不可直接达成,但可分为若干子攻击行为,且每个子攻击不可再分解,并能够唯一对应攻击A。复合式攻击是指对于最终目标T,攻击者无法直接进行最终操作,但为了达到目的可将攻击分为若干个步骤(T1,T2,T3,T4,T5),每个步骤称为单步攻击,每一单步攻击不仅有着自身局部的目标,又与其他单步攻击有着一定的因果关联,并共同达成最终的攻击目标T。
基于意图的复合式攻击预测方法对攻击行为进行预测是通过“图”这一数据结构来实现的。首先定义攻击逻辑关系图,该图G为一个六元组,格式为G={V(G),E(G),R(G),W(G),H(G),L(G)},每个参数具体含义如下:
V(G)={v1,v2,…,vn}为顶点集合(顶点∶攻击类型=1:1)。
E(G)={e1,e2,…,en}为有向边集合(顶点对∶有向边=1:1)。
R(G)={R(v1),R(v2),…,R(vn)}(R(G)中元素∶V(G)中的元素=1:1)。
W(G)={w1,w2,…,wn}为顶点加权值(W(G)中元素∶V(G)中的元素=1:1)。
H(G)={h1,h2,…,hn}为顶点间的关联关系(H(G)中元素∶E(G)中的元素=1:1)。
基于意图的复合式攻击预测方法将原始的有向图加属性扩展,描述了不同的攻击类型间的逻辑关系;根据逻辑关系,对攻击事件的下一步骤进行预测。该方法的局限在于攻击效用的参数设定缺乏标准性,且该方法难以确定复合式攻击的匹配度。
以上四类主流的复合式攻击预测方法的性能对比如表4所示。
微信公众号:计算机与网络安全
ID:Computer-network