网络犯罪的检测分析技术(下)

2022 年 4 月 13 日 CCF计算机安全专委会

网络犯罪支撑技术 

第1节中我们综述了网络犯罪产业链中网络犯罪攻击形式的犯罪逻辑和检测分析技术。在具体攻击形式的背后,通常有隐蔽的网络犯罪支撑技术对其提供保障与支持。网络犯罪支撑技术虽然不直接和用户产生接触,但其在为具体的攻击方式增加隐蔽性、提高攻击效率和成功率方面起着重要作用,如技术支持诈骗依赖于黑帽搜索引擎技术优化吸引用户访问;钓鱼网站依赖误植域名技术欺骗用户等。因此,近年来,对网络犯罪的支撑技术的研究也成为研究人员的关注重点。本节以黑帽搜索引擎优化, 误植域名为例,论述网络犯罪支撑技术的概念、特点和检测分析方法。

 

2.1 黑帽搜索引擎优化

搜索引擎自诞生以来,极大地提升了用户从互联网上获取信息的有效性和便利性,据统计,每日人们会发起70亿余次的Google搜索请求[55]。与此同时,搜索引擎提出了PageRank等为代表的算法对结果搜索结果进行不断优化。此外,随着需要被检索的信息增加,大部分搜索引擎也逐渐采用竞价排名来决定搜索结果的排名,热门关键词对应的价格水涨船高。此外,由于各地法律法规的制约,部分违法或灰色地带的关键词无法在搜索结果中呈现,使得非法产业只得另寻他法。高昂的价格加上法律法规的制约,促成了黑帽搜索引擎优化技术的产生和发展。

本节先简要介绍常见的黑帽搜索引擎优化技术,并讨论其对应的检测技术和评估方法,然后讨论当前黑帽搜索引擎检测技术上遇到的挑战并讨论后续发展方向。

黑帽搜索引擎优化指的是通过违规设置垃圾关键字、链接农场等方式,操纵针对特定关键词的搜索引擎结果的技术。目前广泛采用的技术包括:关键词篡改(keyword stuffing) 、 链接农场(link farm) 、伪装(cloaking)等。

关键词篡改[56]即在网页的内容会填充一些与页面其余部分无关的流行词。攻击者希望通过将篡改的关键词与合法内容进行混合,提高网站在搜索引擎结果中的排行。为了最大限度地提高被索引的概率,通常一个网页中会嵌入数十甚至数百个无关的词。同时,搜索引擎也不断在更新自身的排名算法以应对关键词篡改的攻击,如 Panda[57]和 Penguin[58]都具有针对重复或篡改内容的页面的惩罚措施。然而,检测算法一般依赖于页面内容识别被操纵的网站。因此,黑帽攻击者也不断更新其相关技术,关键词篡改行为更加隐蔽以逃过检测。

链接农场[59][60]是指一组目的为了通过增加传入链接的数量来提高另一个网站的链接流行度的网站。其中,比较典型的链接农场类型包括私人博客[61][62]和论坛[63]等。整体而言,攻击者根据搜索引擎的算法规律,操纵权威网站组成的网络,通过建立反向链接的方式,将搜索权重传递给需要被提升排名的网站。

伪装[64][65][66]是指为了逃避检测,各类黑帽搜索引擎优化网站通常会向不同的访问者或搜索引擎动态提供不同的内容。例如通过浏览器的用户代理(User Agent)、 请求头(Request Header)、IP 地址(IP Address)等特征,保证只向目标客户呈现对应非法内容。

目前,学术界对于黑帽搜索引擎优化的研究主要集中于检测技术研究和威胁评估研究两大方面。

近年间,研究人员主要从搜索结果、网站内容、网页地图等角度研究、检测黑帽搜索引擎优化技术. 文献[67][68][69][61]从搜索的结果作为入手点,其黑帽搜索引擎优化的最终目标是篡改搜索引擎结果。为此,不论攻击者采取何种技术,其结果一定可以在搜索引擎中发现。Liao等人[67]通过利用搜索结果和结果所在域名、搜索结果之间的不一致性,检测专属顶级域名中被被植入用于推广的网站。Joslin等人[68]利用通过语言学上的特点,系统性地生成并分析由于误拼写的关键词造成的问题。Wang等人[69]则通过搜索自动补全机制入手,采用词嵌入技术检测搜索引擎中关键词被黑帽搜索引擎优化污染的情况。Van等人[61]认为若网站需要实现搜索引擎优化的目标,则需要必须将自身结果进行收录。作者以此通过搜索引擎迭代反查种子集合,收集用于黑帽搜索引擎优化的私人博客网络样本。

与上述工作不同的,Yang等人[70]通过采用网站内容分析的角度进行研究,通过采用页面结构和网页内容相结合的方式进行恶意网站的识别检测;Du等人[71]则从网站地图(sitemap)入手,捕捉采用泛解析的黑帽搜索引擎优化网站。

近年间,为了对抗黑帽搜索引擎优化,各大搜索引擎也在频繁更新自身的排名策略。与之对应的,黑帽搜索引擎优化技术也普遍采用一些对抗方式。Yang等人[70]指出,目前搜索引擎可能利用人工容易识别、形状相近,但语义完全无关的的词语(如“六合彩”与“六台彩”)躲避检测;Du等人[71]表明黑帽搜索引擎优化不但会采用动态内容生成来躲避搜索引擎的内容检测,还采用DNS的泛解析功能,动态生成域名以逃避搜索引擎的回环检测。文献[68][70]则表明部分黑帽SEO采用发音相近的字逃避检测。Yang等人[72]指出,攻击者可能采用“黑话”(jargon),逃避常见的关键词检测技术。

黑帽搜索引擎优化所带来的影响巨大,据Yang等人[70]报道,通过其对于7000 多个中文商业网站共超过 3800 万个网页的持续观察,发现了在其中 11% 的网站被用于黑帽搜索引擎优化的行为;文献[62][73]则从时间维度上对黑帽SEO进行分析,Liao等人[74]识别出了3,186个云目录和318,470个门户页面用于常委关键词的黑帽SEO. Du等人[71]中通过对来自22个TLD和SLD,共13.5百万的域名的扫描,发现458个蜘蛛池网站,且虽然网站分布在超过2.8万个IP地址,但是其自治系统、域名注册商都集中分布在一小部分的SEO攻击者中。

从搜索结果的角度衡量,Joslin等人[68]指出,谷歌和百度搜索引擎上,关于语言冲突搜索词的第一页搜索结果中,大约 1.19% 指向恶意网站。文献[69]通过对1.14亿条搜索谷歌引擎的建议词进行分析,揭示了其中0.48%的谷歌建议术语被操纵的现象,并且指出其中至少有 20% 用于地下广告、宣传赌博内容甚至分发恶意软件。

作为一种支撑技术,黑帽搜索引擎优化的最终目的在于为对应的网络黑灰产引流,对于黑帽SEO所承载的攻击载荷,学术界也有相关工作对其进行研究。Liao等人[67]揭露了针对 .edu 域名的教育作弊攻击,此类网站主要提供教育相关的作弊服务,包括贩卖家庭作业,为学生提供在线考试作弊等服务。Joslin等人[68]汇总了最受黑帽搜索引擎优化欢迎的前五个类别分别是:药品、成人相关、博彩、软件和汽车。Du等人[71]则从1,453 个已识别的黑帽搜索引擎优化客户站点中抓取的所有网页,并通过内容分析,发现使用黑帽搜索引擎优化的网站主要包括,销售和服务、赌博、代孕、新闻、色情、游戏、医疗和药品等。

虽然工业界和学术界普遍采用各种技术对抗黑帽搜索引擎优化攻击,但由于巨大的利益驱使,黑帽攻击者也在不断提高其自身的对抗手段。未来一段时间,检测技术和逃逸技术仍然会保持长期的螺旋上升态势。

对抗搜索引擎黑帽搜索引擎优化最简单的方法是配置有关域名、关键词的黑名单(blacklist)。与之对应的,攻击者从最初的直接使用相关敏感词,逐渐转移到使用黑话,再到使用人工容易识别、但语义上完全无关的词语。为此,如何能在尽量少的基于专家人工经验的基础上准确生成关键词黑名单,尤其是先前未掌握的关键词黑名单,是未来研究的一个重点。

随着搜索引擎检测算法和非法页面检测工具的不断升级,传统的一次嵌入数百、数千个关键词的粗放式关键词篡改攻击也逐渐进化,出现了仅改变关键标签位置内容的攻击方式[70]。同时,除了基于浏览器用户代理、请求头的伪装之外,还出现了基于动态代码执行的伪装技术等。因此,如何能在攻击日益隐蔽的情况下,持续准确识别黑帽搜索引擎优化的相关网站,也需要更多研究关注。

 

2.2 误植域名

误植域名(Typosquatting)是一项历史悠久的网络犯罪技术,自从上世纪90年代域名开始注册以来,网络犯罪分子就开始通过抢先注册用户输入错误的域名,诱导其进入预设的网站产生访问流量。误植域名概念首先由Gilwit在纽约法律杂志[75]上提出,2003年Edelman[76]首次对误植域名进行了大规模的研究,发现超过8800个误植域名,进一步调查发现大多数误植域名都属于John Zuccarini所有。Zuccarini经常针对儿童网站进行误植域名攻击,让误输域名的儿童重定向到色情网站从而牟利[76]

误植域名的检测首先要了解误植域名的生成模式。误植域名的生成模式经历了由最开始的简单字符变换到后续更高级的比特变换等模式的转变,相应的检测技术也在同步的提升。研究人员们除了关注其中的检测技术以外,还关注这些误植域名网站背后的盈利模式和其他属性,以期望更加全面的了解这一灰色产业。本节也将从误植域名的生成模式、检测手段和其产业背后的其他相关属性进行梳理。

简单的误植域名生成模式可以分为5类[77][78]

1)"."省略:输入域名时少输入“.”发生,如由“www.example.com”变为“wwwexample.com”。

2)字符省略:少输入域名字符时发生,如由“www.example.com”变为"www.exmple.com”。

3)字符错误排列:如由“www.example.com”变为“www.examlpe.com”。

4)字符替换:如由“www.example.com”变为“www.ezample.com”。

5)字符插入:如由“www.exaample.com”变为“www.exaample.com”。

后续误植域名持续发展,出现了更加高级的生成模式: 

6)同态误植域名:Per Holgers等人[79]提出了同态误植域名,即将目标域名变化为视觉上相似的域名。如“www.bankofthewest.com”变为“www.bankofthevvest.com”,使用两个v来替换”w“。

7)比特误植域名(Bitsquatting):Artem Dinaburg在黑帽安全会议上介绍了比特误植域名技术[80],这种技术不是依赖于用户的错误输入,而是由设备物理故障而发生的随机比特翻转错误。

8)同音误植域名(Soundsquatting):Nikiforakis等人发现了同音误植域名[81],即利用单词的读音相似性来进行攻击,如“www.eight.com”变为“www.ate.com”。

9)组合误植域名(Combosquatting):2017年Kintis等人[82]研究了组合误植域名入技术,该技术将流行域名与单词连接起来,如“youtube.com”变为“youtube-live.com”。zeng等人也将这类技术归为域名组合抢注[83]

 

误植域名技术的快速迭代也促使相应的检测技术不断发展。Wang等人[77]设计了Strider Typo-patrol系统自动扫描并检测简单的误植域名(1-5),首先利用这些生成模式生成大量误植域名,再对误植域名进行访问判断是否被注册。Wang等人这一检测方法是最早且被人们广泛引用的方法之一,如文献[84][85][83][84]中以同样的方法对误植域名的存活数量进行了检测。Holgers等人[79]提出了同态误植域名的检测方法,即通过易被混淆的字符替换目标域名以生成误植域名,并利用DNS解析以确定域名是否被注册。Nikiforakis等人[86]首次对比特误植域名现象进行了大规模的分析,提出了对应的检测方法。此后,Nikiforakis等人[81]又提出了同音误植域名的检测方法:作者首先利用单词列表从域名中解析单词,后利用同音单词数据库来对目标域名单词进行变化生成误植域名。此后,Kintis等人第一次[82]对组合误植域名进行了大规模研究,在长达6年的时间里,他们通过分析超过4.68亿条DNS记录识别出了270万个组合误植域名。上述误植域名的检测方法大都是以误植域名的生成模式为基础,自动化地生成大量的候选误植域名,最后利用DNS解析判断误植域名存在。根据他们实验结果表明,误植域名技术出现二十多年来并没有随着时间演进而消亡,反而随着新技术的出现更加流行。

此外,在其他使用域名的场景,如邮件系统也会受到误植域名的影响,Szurdi等人[87]首次对邮件的误植域名进行了研究,他们对自己注册的误植域名研究发现,这些误植域名对应的邮箱确实能够收到一些包含敏感信息的邮件,并且他们对真实世界中的邮件系统研究发现1211个误植域名对应的邮箱每年会收到800,000个受害人的邮件。HTML或者JavaScript代码中引入JavaScript库时也会出现由于误植域名而导致的安全问题,Nikiforakis[88]通过实验对这一攻击进行了研究,他们注册了与流行的JavaScript库名相近的域名,发现在15天之内有16万名开发者访问这些误植域名的库,这一攻击比传统的误植域名的威胁要大得多,可能引起恶意代码注入等安全问题。

除了对误植域名进行检测之外,研究人员们也关心误植域名的幕后经济模式以及其他相关属性。2008年Baberjee等人[78]对误植域名技术进行了大量的研究,他们发现误植域名的假网页比目标网页体积更小,到达假网页需要经过很多重定向耗费的时间更多,他们的研究结果也表明流行网站的域名更受误植域名攻击的青睐。7年后,Szurdi等人[85]得到了相反的结论,他们的研究表明95%的误植域名攻击的目标在于网站排名“长尾分布”中的处于“长尾”的网站,Agten等人[89]也证实了这一点,这表明误植域名的攻击趋势和对应行为随着时间在逐步变化。Agten等人在长达7个月的研究中还发现误植域名的网页在积极的切换其盈利模式,有时利用广告有时通过诈骗犯罪进行盈利。文献[89][85][89]也证实目前误植域名仍然比较流行。近年来,Khan等人[90]通过“意图推理”来量化误植域名技术对用户体验的影响。Spaulding等人[91]通过用户调研的方式研究了误植域名技术在欺骗用户方面的有效性,研究发现误植域名攻击对熟悉安全相关知识的人效果不大,且字符替换和字符省略的误植域名相较其他误植域名攻击方式更有效。而Tahir等人[92]通过对人体手部结构、键盘布局和键字错误频率的探索发现,手部结构和键盘布局造成了某些字符组合拼写时更易出错,进而解释了导致域名更容易存在误植域名的现象。

Table 1 Overview of Typosquatting-related research

表 1误植域名相关研究概览 

(*表示其作者并未明确指出使用的流行网站排名来源)

误植域名技术更多的是用于为其他网络犯罪活动如钓鱼攻击[6]、网络诈骗[20]等提供技术支持。犯罪分子布置与目标网站相同的网页,在用户误植域名进入犯罪分子网站后进行钓鱼攻击。由于域名是用户主动输入的,用户在输入账户密码或者银行卡号等敏感信息时警惕心很低,很容易上当受骗。误植域名作为灰色产业地带,受到的相关法律法规监管较弱,所以首先需要从法律法规角度对这一块监管内容做出进步,同时由于用户粗心误植入错误的域名是不可避免的,对用户出现误植域名时进行提醒是有效保护用户利益的手段,如何做到用户误植域名的判断并及时提醒是今后研究的重点。

 

网络犯罪基础设施

仅有网络犯罪的攻击技术和支撑技术还不足以构成完整的网络犯罪产业链,攻击技术和支撑技术都需要对应的基础设施提供配套服务。例如,攻击者实施网络犯罪之前通过地下黑市进行相关信息或者攻击软件的获取,实施攻击钓鱼、诈骗等攻击时可以利用僵尸网络服务来进行高效便捷的内容分发,在攻击成功后利用洗钱渠道等手段来进行非法资金的变现等。这些网络犯罪基础设施无疑为网络犯罪攻击的成功实施和网络犯罪技术的有效支持提供了方便快捷的渠道。匿名、稳定、抗打击的能力强的基础设施是网络犯罪产业蓬勃发展的基石。本节对以地下论坛、僵尸网络和洗钱渠道为代表的网络犯罪产业链基础设施的相关概念、检测分析方法进行梳理。

3.1 地下论坛

地下论坛(Underground Forum)是网络犯罪分子买卖各种违法商品、服务或者信息的交易市场,一般也叫做地下黑市。地下黑市交易的违法商品如网络犯罪软件、个人身份信息、银行卡信息等,这些网络犯罪软件的大量交易使得实施网络犯罪的“门槛”逐渐降低,不具备安全背景的用户也可以通过“傻瓜式”操作来完成网络攻击,从而导致网络攻击事件频发,同时大量用户个人信息的交易也使得攻击的范围和规模逐步增大,威胁到大多数人的财产安全。

地下黑市在过去的20年间以多种形式存在。早期的地下黑市主要是利用IRC协议(Internet Relay Chat)通过群体聊天来交易[93][94],随着时间的发展网络犯罪分子逐渐将这些违法交易的场所转移到更加稳定、便利且流量更大的web论坛[95][96]。由于监管和打击的趋严,这些论坛逐步转入“地下”,加入这些论坛有严格的审查过程,有些论坛至少需要三名现有成员推荐才能加入[97]。并且某些地下论坛也逐步趋于专门化,如Stone Cross等人[97]调查的Spamdot.biz 论坛就专门售卖垃圾邮件服务。在地下黑市的研究工作中,研究人员们关注地下论坛中交换的非法信息和运作模式以估计其背后产生的经济效应。地下黑市类别众多变化极快,人工对这些数据分析成为了限制因素,所以研究人员们也在尝试探索自动化分析地下黑市的方法。本节将从地下黑市的发展过程出发,梳理人们对地下黑市经济模式等属性和自动化分析方法的相关研究工作。

文献[93][94]中对早期基于IRC协议的地下黑市进行了研究,文献[93]中发现美国大约有34到40个的比较活跃的地下黑市,这些地下黑市一般都是基于IRC协议,他们通过多人聊天来完成商品的交易,基于IRC协议的论坛一般都是开放的很容易被发现,从而提醒监管者对这类地下黑市实施打击。Franklin等人[94]首次大规模研究了基于IRC协议的地下黑市中商品的价格和类型以了解背后的经济模式,他们从活跃的地下论坛中收集了7个月的1300万条聊天记录进行分析,发现这些地下市场中热门的商品包括信用卡信息、金融信息和个人身份信息等。

相比基于IRC协议的地下黑市,基于web论坛的地下黑市中的信息更加多样复杂,相应的每个地下黑市中商品的种类更多带来的经济规模也更加庞大。Zhuge等人[95]首次对中国公共论坛形式的黑市进行了分析,他们提出了一种模型来描述游戏中虚拟资产等商品在的地下论坛中的具体交易流程,并从技术角度剖析了地下论坛影响下恶意网站构建过程的运作模式。MotoYama等人[98]通过对6个地下论坛的数据进行分析,研究了地下市场社交网络的构成。Afroz等人[99]利用在渔业和林业中大放异彩OSTROM 经济框架探究了这些地下论坛的发展是否可持续,他们通过对5个地下论坛数据进行分析,发现可持续性取决于论坛的管理。Christin等人通过在2011年到2012年收集的论坛数据,对丝绸之路(Silk Road)这一典型的地下论坛进行了全面的研究分析[100]。Pastrana[101]通过收集的4个地下论坛的长达10年的帖子,首次分析了地下市场中10年间交易货币的演变过程,发现亚马逊礼品卡也逐步成为地下黑市的交换媒介,且比特币是黑市中最受欢迎的交易货币。Hughes等人[102]使用统计建模的方法分析了地下市场在3种不同的时期(动荡、平稳和新冠肺炎)中经济发展和社会特征,在动荡时期只有极少交易在增长;在平稳的时期他们观察到大范围的经济活动变化如亚马逊礼品卡这种中间货币大规模的兑换;在新冠肺炎大流行时期,他们发现所有类别的商品交易都在显著地增长。

地下黑市逐渐产生了专门化的趋势,研究人员们也开始对这些地下黑市中特定商品进行分析。Gross等人[97]对地下论坛中垃圾邮件的经济模式进行分析,他们在主售垃圾邮件服务的Spamdot.biz 论坛关闭之前收集了其中的数据,对其进行了全面的分析,研究发现该论坛中Email地址数据是最热销的商品, Sood等[103]揭示了地下市场中犯罪软件的买卖运作情况。Sun等人[104]首次研究了地下市场中“特权滥用”现象,文献中的“特权滥用”类比于亚马逊等电商的买家通过商家设置商品的漏洞或者欺骗商家退款进行牟利。

为了减少研究地下黑市耗时费力的人力开销,研究人员们逐步转向探索自动化分析黑市的方法。Afroz等人[105]首次探究了地下论坛中非结构数据的分析方法,他们利用Stylometry方法——通过分析写作风格来识别匿名信息的匿名作者,自动化识别地下论坛中用户的多重身份。Li等人[106]则基于深度学习模型情绪分析方法分析其中顾客对卖家商品的反馈,从而自动化识别地下黑市的恶意软件或者病毒的制作者。Portnoff等人[107]则利用自然语言处理技术(NLP)和机器学习实现了对地下黑市中帖子类别、商品种类和价格的识别的自动化识别。

地下黑市作为违法商品交易的场所,不仅为网络犯罪分子实施攻击提供了相应的信息和技术支持,也为他们犯罪后快速变现提供了方便的渠道。如地下黑市中售卖的垃圾邮件服务其中的受害者邮件地址或者分发邮件的僵尸网络都为垃圾邮件分发提供了更加高效方便的技术支持[97]。如今大多数网络犯罪的实施者都不太精通安全技术,他们的网络犯罪攻击和攻击流程等信息都是从地下黑市中购买,然后加以简单操作便能实施高效的攻击,攻击之后再将所得个人信息等数据放到黑市中售卖。

网络黑市作为大多数网络攻击的源头和终点,对其整个生态或者产业链进行研究能够加深对网络犯罪动机等的理解,从源头上减少网络犯罪事件的发生,目前大多数研究都是做的这方面的工作。但是大多数对地下黑市的研究仍然停留在人工分析数据的阶段,探究地下黑市自动化分析方法的研究还是不足,所以探究如何自动化分析提取地下黑市的有价值信息,如何利用机器学习或者NLP技术抽象提取这些信息中更高维度的特征用于研究是后续的一个研究方向。同时目前对地下论坛的研究由于数据收集的限制侧重于比较开放的地下黑市,而对其他比较隐蔽甚至需要特殊协议进入的地下黑市研究甚少,对这部分黑市背后的产业链以及幕后经济模式的研究能够进一步加深对黑灰产行业的理解,也是未来需要研究的一个方向。


3.2 僵尸网络

僵尸网络(Botnet)是在黑客命令控制下的一组受感染的终端主机,这些主机也被叫做“肉鸡”。僵尸网络主要由3部分组成:僵尸网络控制者(botmaster)、命令控制通道(command and control)和僵尸主机(bots)[108]。僵尸网络不仅本身能够造成巨大的危害,如进行DDOS攻击,还能为其他网络犯罪提供最基础的服务,如利用僵尸网络以垃圾邮件为载体进行钓鱼信息、诈骗信息和恶意软件等的传播。僵尸网络所涉及的研究范围较为广泛,本节以垃圾邮件分发角度为例,梳理僵尸网络在网络犯罪生态系统中相关的技术研究。

在垃圾邮件的分发方面,垃圾邮件IP黑名单过滤机制很好地限制了垃圾邮件的传播,因此垃圾邮件发送者开始利用或者租用僵尸网络来进行垃圾邮件的分发[109]。使用大量的僵尸主机进行垃圾邮件的传播显著提高了垃圾邮件投放的成功率和黑名单即时更新的难度[110]。僵尸网络作为一个庞大的分布式计算网络,拥有很多僵尸主机,利用这些僵尸主机能够在数小时之内发送千万封垃圾邮件[111];在僵尸网络中,僵尸主机协同合作使得发送垃圾邮件的主机IP不断改变同时僵尸主机地理位置的多样性也使得它们很容易就逃避了垃圾邮件过滤技术和IP黑名单技术的检测。由于僵尸网络规模的庞大性和分发垃圾邮件的简便有效性,从2003年第一次使用僵尸网络分发垃圾邮件以来,僵尸网络已经成为发送垃圾邮件的主要方式,在2011年时使用僵尸网络来发放垃圾邮件的比例就已高达83.1%[112]

比较受欢迎的垃圾邮件僵尸网络服务有Bobax、Rustock、Storm等[113]。Bobax是第一个基于模板的垃圾邮件僵尸网络,它每天发送90亿条垃圾邮件,有18.5万个发送垃圾邮件的僵尸主机[114]。Rustock僵尸网络服务最早出现在2006年,它有15万到240万台僵尸主机,每小时能够发送多达2.5万封垃圾邮件[115],这些垃圾邮件涉及假药广告、假冒微软彩券诈骗等。Storm是最著名最大的僵尸网络,它在2007年利用1百万至5千万台受感染的主机发送了全球20%的垃圾邮件,这些垃圾邮件涉及到钓鱼攻击、雇佣诈骗广告等[116]

针对垃圾邮件僵尸网络服务的检测技术主要分为两种,基于被动发现的检测技术和基于主动发现的检测技术。基于被动发现的检测技术是指静默的观察僵尸网络发送垃圾邮件的活动并对产生的大量垃圾邮件进行深入分析,被动检测技术可以分为基于签名、基于DNS和基于异常的检测方式。基于签名的检测技术利用已知僵尸网络发布的垃圾邮件、恶意软件的签名或者指纹来进行检测,Xie等人[117]中提出了AutoRe框架,它以垃圾邮件的内容、服务器流量等属性来生成对应的指纹和特征,AutoRe对来自Hotmail的邮件进行随机抽样识别,发现了7721起由僵尸网络发起的垃圾邮件活动。Ching等人[118]提出EIGENBOT,该技术可以通过基于语义图分析方法动态区分僵尸网络发送的垃圾邮件。基于DNS的检测技术通过监视DNS活动和检测不寻常的DNS查询来检测僵尸网络DNS流量。Ramachandran等人[119]中提出检查DNS黑名单(DNSBL)中域名的查询情况来寻找僵尸主机。其利用启发式规则来区分合法的DNSBL流量和来自僵尸网络的查询流量,然后利用僵尸网路的查询流量追踪僵尸主机。Ehrlich[120]等人提出了一种利用网络流数据和DNS元数据检测垃圾邮件源主机、僵尸主机以及僵尸网络控制者的方法。基于异常的僵尸网络检测是指,观察和分析不符合预期正常行为的电子邮件流量模式,以检测垃圾邮件的僵尸网络。Sroufe等人[121]提出了一种基于电子邮件“骨架”异常来分类僵尸网络的方法,“骨架"是指电子邮件HTML代码中每个标签中字符长度,然后利用机器学习将这种”骨架“信息用于分类不同僵尸网络发送的垃圾邮件。这种方式的一个局限性是,它不是检测垃圾邮件僵尸网络的完整解决方案,但它可以与垃圾邮件僵尸网络的网络行为分析相结合,以提高检测和分类僵尸网络的整体性能。Schafer等人[122]使用从SMTP服务器的日志文件中提取的数据来进行异常识别,他们从中提取源IP和连接时间来检测异常,从而检测被僵尸网络滥用的帐户。

基于主动发现的检测技术是通过创建一个模拟C&C协议的客户端从而加入到僵尸网络中,在加入僵尸网络后准确估计僵尸网络的大小,甚至破坏整个僵尸网络。进一步地,主动发现检测技术也可以分为三种类型,基于渗透的、基于受控环境的和基于web恶意流量重定向的检测技术。在基于渗透的检测技术方面,Kreibich等人[123]利用分布式渗透方法对Storm僵尸网络分发的垃圾邮件进行了初步分析。Gross等人[97]通过主动攻击的方式获得Cutwail僵尸网络中13台僵尸网络服务主机的控制权,以此他们对僵尸网络中垃圾邮件的分发操作进行演示,同时他们也研究了基于IP的黑名单过滤机制的有效性、黑名单列表的质量和僵尸主机的可靠性等问题。在基于受控环境方面,Andreas等人[124]开发了Botnet judo系统,该系统将在受控环境中运行僵尸主机发送的垃圾邮件处理成正则表达式签名形式,然后进行垃圾邮件的实时检测。作者利用一种模板推理算法来产生垃圾邮件的正则表达式签名,并且在受控的僵尸主机收到命令发送垃圾邮件时对签名进行实时更新。作者还评估了多个模板推理的使用情况,证明judo在一种模板方式和多种模板方式下都很有效。在基于恶意流量重定向的检测技术方面,Ramachnaran和Feamster等人[125]研究了垃圾邮件的网络级特征,并观察了垃圾邮件发送者的网络级行为。通过对垃圾邮件传播数据的追踪,他们发现并确定了其分析的垃圾邮件来自BoBax僵尸网络。

目前存在很多对僵尸网络的研究工作,研究人员们提出的对僵尸网络的不同研究方式都有其局限性,特别是对于基于P2P协议的僵尸网络检测,目前基于主动的检测方式只能获得僵尸网络的一部分信息,使用被动探测和主动检测方式结合来探究P2P僵尸网络是今后的研究方向[113]。同时随着移动设备、云服务、物联网的发展,会出现基于各种各样不同设备的僵尸网络攻击,这也对检测方法提出了更高的要求。


3.3 洗钱渠道

洗钱是犯罪分子用于逃避税务或者隐藏非法资金流向的手段[126]。大多数网络犯罪都是以牟利为目的,网络犯罪分子一般最后都会进行资金的变现操作。但是使用常规的变现手段很容易被执法部门追踪资金流向进而导致账户被冻结,因此,犯罪分子会使用各种的洗钱手段来使所得资金“合法化”。

传统的“物理”洗钱方式有如现金走私、赌博洗钱、保险洗钱和黑市比索交易(Balck Market Peso Exchange)等各种各样的方式,而现如今每天网络上发生着数亿笔交易,互联网的匿名性和不断发展的技术促使网上洗钱业务变成流行。洗钱是网络犯罪生态中关键的一步,随着支付机制的变化洗钱的方式也在逐步变化。网上洗钱方式从传统的使用Liberty Reserve(一家在线支付公司)[127]洗钱、钱骡(Money mule)洗钱逐步转变到使用网络游戏虚拟货币洗钱和利用PayPal[128]、比特币等货币的小额洗钱方式[129]。洗钱已经作为一项服务在网络犯罪产业链的重要组成部分在地下论坛中广泛存在,因此研究人员们往往从地下论坛的数据作为切入点,研究洗钱过程中货币交换和资金流向等问题。本节从网上洗钱方式的发展和其中货币交换的角度梳理研究人员对网络犯罪生态中洗钱手段的研究。

Liberty Reserve是一家支持匿名收付款的在线支付公司,很多网络犯罪分子曾利用其匿名性进行洗钱[129]。但是自2013年5月Liberty Reserve被关闭后,该方式逐步被比特币洗钱替代[101]

钱骡是指利用自己的账户将非法资金或者高价值货物进行转移的中间人,他们在转移成功后会得到一笔报酬,由于将非法钱财转移到网络犯罪高发的一些国家存在困难,因此犯罪市场对钱骡存在大量需求[130]。钱骡一般都是被以“在家高薪工作”等诈骗邮件为噱头欺骗的个体,他们并不知道其正在从事违法活动。根据Mikhaylov等人[130]的发现,学生、吸毒者、流浪汉和老人是犯罪分子们理想的钱骡招募目标。Hao等人[29]发现了一种新型网络诈骗——货物重运诈骗 (reshipping scams),犯罪分子用盗取的信用卡购买高价值商品之后通过地下市场服务租用“骡子”帮忙接收和运送包裹从而转移非法财产。

使用游戏虚拟货币也成为现在常用的洗钱手段,如某些大型网络游戏中存在虚拟获取兑换等功能,犯罪分子会利用非法资金购买游戏虚拟货币然后再将这虚拟货币在游戏论坛中售卖[131]。其中网上赌博等游戏也属于这一类[129]。Irwin等人[132]提出对网络游戏大规模资金交易进行限制来对此类洗钱手段进行限制。

在洗钱过程中非法货币交换和资金流向方面,2016年,Alexander等人[130]对两个俄罗斯语的地下论坛进行了分析,发现俄罗斯网络犯罪分子更喜欢使用Webmoney电子商务支付系统[133]和西联国际汇款公司(Western Union)[134]来兑现或者进行资金的转移。然而,Portnoff等人[107]证明现在比特币和PayPal是非法交易的首选货币,同时他们也观察到资金从PayPal、比特币或者其他支付机制转移到信用卡的需求。Pastrana等人[135]的研究也证明了PayPal、比特币分别为网络犯罪经济中最常用的两种交易方式,同时他们也发现2015年后亚马逊礼品卡作为交易方式逐渐开始流行。Huang等人[136]对勒索软件犯罪中支付的勒索金流向做了研究,他们发现勒索软件犯罪分子们更喜欢使用BTC-e(俄罗斯一家将比特币兑换为法定货币的交易所)[137]来兑换比特币。最近Siu等人[138]研究发现PayPal仍然是网络犯罪分子最喜欢交换的交易方式,同时由于比特币价格的剧烈波动,非法资金交易媒介有从比特币转移到PayPal的趋势。

在网络犯罪生态中洗钱手段变换多样,目前已有很多研究对洗钱的方式进行探究,但是正如文献[129]中所阐述,洗钱方式会随着支付机制的转变而转变,因此对于新型洗钱手段的研究是今后的研究方向。同时洗钱变现作为网络犯罪过程中的最后一环,对洗钱过程的自动识别和溯源是为受害者挽回损失的基础,也是今后研究的重点之一。

总结

随着人们的生产生活对于网络依赖的提高。网络犯罪产业链规模日趋庞大,其攻击形式、支撑技术、基础设施的协调配合更加复杂。犯罪分子通过变化多端的攻击形式,损害人民群众的生命财产安全。网络犯罪的攻击形式除了充分考虑心理学、社会工程学和人机交互设计特点之外,往往还有相关网络犯罪支撑技术为其提供相关技术支持,保证攻击的有效性和高效性。此外,不论是攻击形式和支撑技术均无法独立完成完整的犯罪过程,其需要通过对应的网络设施进行部署,在地下交易平台上买卖用户数据并通过洗钱渠道将非法所得“洗白”。

针对网络犯罪产业链的复杂特点,本文从钓鱼、诈骗、恶意挖矿等经典的网络犯罪攻击形式入手,介绍网络犯罪攻击形式的特点和逻辑,进而综述黑帽搜索引擎优化、误植域名等网络犯罪支撑技术,并讨论了网络犯罪依赖的地下论坛、僵尸网络和洗钱渠道等基础设施,梳理网络犯罪生态的组成部分。最后,列举了网络犯罪研究中的一些仍存在的挑战和未来研究方向。 复旦大学计算机科学技术学院 洪赓 杨珉


参考文献略

登录查看更多
0

相关内容

搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高
图数据上的隐私攻击与防御技术
专知会员服务
26+阅读 · 2022年4月28日
军事知识图谱构建技术
专知会员服务
115+阅读 · 2022年4月8日
专知会员服务
25+阅读 · 2021年8月7日
专知会员服务
18+阅读 · 2021年6月10日
专知会员服务
57+阅读 · 2021年5月11日
对抗样本生成技术综述
专知会员服务
62+阅读 · 2020年7月21日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
62+阅读 · 2020年5月15日
流量全密化趋势下的检测困境和思考
CCF计算机安全专委会
0+阅读 · 2022年4月26日
网络犯罪的检测分析技术(上)
CCF计算机安全专委会
1+阅读 · 2022年4月12日
安全资讯早知道 | 新的FFDroider木马 专注于窃取社交媒体帐户
CCF计算机安全专委会
0+阅读 · 2022年4月11日
安全隐患:神经网络可以隐藏恶意软件
THU数据派
0+阅读 · 2022年3月16日
俄罗斯开发人员或因制裁而无法使用开源软件!
大数据文摘
0+阅读 · 2022年3月8日
避免自动驾驶事故,CV领域如何检测物理攻击?
机器之心
2+阅读 · 2022年1月10日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年6月7日
Arxiv
13+阅读 · 2020年10月19日
Arxiv
14+阅读 · 2020年2月6日
VIP会员
相关VIP内容
图数据上的隐私攻击与防御技术
专知会员服务
26+阅读 · 2022年4月28日
军事知识图谱构建技术
专知会员服务
115+阅读 · 2022年4月8日
专知会员服务
25+阅读 · 2021年8月7日
专知会员服务
18+阅读 · 2021年6月10日
专知会员服务
57+阅读 · 2021年5月11日
对抗样本生成技术综述
专知会员服务
62+阅读 · 2020年7月21日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
62+阅读 · 2020年5月15日
相关资讯
流量全密化趋势下的检测困境和思考
CCF计算机安全专委会
0+阅读 · 2022年4月26日
网络犯罪的检测分析技术(上)
CCF计算机安全专委会
1+阅读 · 2022年4月12日
安全资讯早知道 | 新的FFDroider木马 专注于窃取社交媒体帐户
CCF计算机安全专委会
0+阅读 · 2022年4月11日
安全隐患:神经网络可以隐藏恶意软件
THU数据派
0+阅读 · 2022年3月16日
俄罗斯开发人员或因制裁而无法使用开源软件!
大数据文摘
0+阅读 · 2022年3月8日
避免自动驾驶事故,CV领域如何检测物理攻击?
机器之心
2+阅读 · 2022年1月10日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员