网络犯罪的检测分析技术（上）

2022 年 4 月 12 日 CCF计算机安全专委会

随着信息技术的高速发展，越来越多的生产生活逐渐转移到网络空间进行，国民经济对网络空间的依赖也日益凸显。互联网带来便利的同时，越来越多的犯罪从传统线下转移到网络空间中进行，威胁人民群众的日常生活安全。因此，如何理解、评估、预防、打击网络犯罪，成为学术界、工业界和相关执法部门的关注重点。近年来，研究人员持续关注各种网络犯罪及对应的防范、评估、反制技术。但目前针对网络犯罪总体综述研究较少，亟需对网络犯罪产业链组成部分进行全面且详细的梳理。本文将以钓鱼(Phishing)、诈骗(Scam)、恶意挖矿(Cryptojacking)等经典网络犯罪攻击方式为切入点，深入分析包括黑帽搜索引擎优化(Blackhat SEO)、误植域名(Typosquatting)在内的相关支撑技术，详细揭露地下市场(Underground Market)、僵尸网络(Botnet)和洗钱渠道(Money Laundering)等网络犯罪基础设施，剖析网络犯罪产业链，最后讨论了网络犯罪研究中仍存在的挑战，并展望未来研究方向。‍

引言

网络犯罪，是指使用计算机、网络或相关硬件设备促成或实施的任何犯罪^[1]。广义上，世界上第一次记载的网络相关犯罪可以追溯至1834年两名劫匪侵入法国电报系统并从股票市场窃取信息^[2]。伴随着移动生态的快速发展，人民的生活数字化程度逐渐提高，越来越多的生产生活逐渐转移到网络空间进行，网络犯罪也随之更加频繁发生，如2016年美国56名嫌疑人冒充国税局或移民工作人员进行电信网络诈骗，导致1.5万人上当受骗，涉案金额超过3亿美元^[3]。近年来，国民生活逐步从线下转移到线上进行，网络犯罪也随之愈演愈烈：2019年仅在俄罗斯就发生了一万多起新型网络犯罪^[4]。同时，英国的研究人员发现新冠疫情出现以来网络诈骗事件数量持续增长，电信网络诈骗者正在利用疫情对受害者实施诈骗^[5]。

近年来，研究人员主要关注各类网络犯罪的防范、评估、反制技术的发展。但目前针对网络犯罪总体综述研究较少，缺乏对网络犯罪产业链进行全面梳理。

Fig. 1 Illustration of Cybercrime Industrial Chain

图 1 网络犯罪产业链示意图

如图1所示，网络犯罪产业链庞大而复杂，其中涉及到攻击形式、支撑技术、基础设施的协调配合。网络犯罪攻击形式是网络犯罪产业链中直接接触终端受害者的部分，其最易被人们感知，也直接造成人民群众财产经济损失。然而，具体的攻击形式是网络犯罪产业链的表层体现，在相关犯罪行为背后，通常是由网络犯罪支撑技术为其提供充足的技术支持。此外，网络犯罪攻击形式和支撑技术均严重依赖于交易平台、网络设施、洗钱渠道等网络犯罪相关基础设施，它们为支撑技术的成功应用和网络犯罪攻击的成功实施提供相应的基础服务保障。

为此，本文将以钓鱼(Phishing), 诈骗(Scam), 恶意挖矿(Cryptojacking)等经典网络犯罪形式为切入点，介绍其犯罪特点和逻辑，进而对以黑帽搜索引擎优化(Blackhat Search Engine Optimization, Blackhat SEO)、误植域名(Typosquatting)为代表的相关支撑技术进行梳理，最后对网络犯罪所赖以生存交易平台、网络设施、洗钱渠道等基础设施（如地下论坛(Underground Forum)、僵尸网络(Botnet)和洗钱渠道(Money Laundering)等）进行解析，串联网络犯罪生态的各个组成部分，剖析网络犯罪产业链。由于篇幅所限，本文主要关注于网络犯罪产业链中环节的国内外重要学术研究成果，着重介绍上述网络犯罪所涉及的概念，梳理其中检测分析技术和存在问题，最后还将讨论仍存在的挑战并展望未来研究方向。

网络犯罪的攻击形式

网络犯罪的攻击形式是网络犯罪庞大产业链的具体呈现。其在整个网络犯罪产业链中负责直接接触和攻击受害者，并产生经济利益，为产业链的发展提供源源不断的资金支持。为了迷惑受害者，网络犯罪的攻击形式通常还会和社会工程学、人机交互设计相结合，以达到最佳的攻击效果。本节以钓鱼攻击、网络诈骗和恶意挖矿3种经典的网络犯罪的攻击方法为例，讨论和梳理相关研究工作和技术趋势。

1.1 钓鱼攻击

钓鱼攻击（Phishing），指通过伪装成权威的网站或者机构来获取受害者用户户名、密码和银行卡信息等个人敏感数据的犯罪过程。犯罪分子通常会声称自己来自网络银行如支付宝、PayPal，或者权威机关如公安机关、电信部门等获取用户的信任，再诱导受害者点击网站链接到外观与被仿冒的网站相差无几的假网站输入个人资料。在获得受害者的敏感数据后，犯罪分子可以通过出售等非法途径进一步牟利。

作为一种经典的网络犯罪，钓鱼攻击的普遍性使得其一直是学术界和工业界研究的重点。早期的钓鱼攻击往往场景较为单调，因此基于黑、白名单的检测方法被广泛应用。但随着对抗的不断深入，研究者的重心开始转向基于机器学习或者启发式算法等更高效准确的检测方法上。同时，为了防御将来可能发生的钓鱼攻击，研究人员通过对钓鱼攻击不同的环节进行深入分析，总结犯罪分子的技术特点和表现特征，以提出更好的防御和对抗方法。本节从钓鱼攻击的检测方法、防御技术、对抗方法和生命周期特点等维度来总结近年来学术界针对钓鱼攻击的研究成果。

一般而言，钓鱼网站获取受害者信任最直接的方式就是保持同原网站在视觉上高度的相似性，以达到以假乱真、鱼目混珠的效果。但这种视觉上的相似同样可以被研究人员用来检测钓鱼网站。考虑到对网站截图进行直接对比不仅效率较差，而且准确度更低，Lin等人提出了基于深度学习的检测工具Phishpedia^[6]，通过定制的目标检测模型提取页面中的品牌图标信息，然后利用基于迁移学习的孪生神经网络进行检测。针对传统图像相似检测方法无法检测未知图形的问题，Abdelnabi等人创新性地使用了三元卷积神经网络模型，基于网站屏幕截图，实现了基于相似度检测钓鱼攻击的方法VisualPhishNet^[7]。

除视觉相似度等直观因素的影响外，HTML代码的相似度同样可以作为检测钓鱼攻击的重要依据。Cui等人从HTML代码内的标签入手，通过统计不同标签在网页内出现的频率将不同的HTML编码为等长的向量，然后通过定义比例距离的方式来判断不同网页的相似度。Cui等人^[8]将具有高相似度的网页用启发式的算法进行聚类，由此得到来自同一个模板生成的不同钓鱼网站集群。为了精准地获得网页中的文字内容，Tian等人引入了视觉分析和光学字符识别等功能来解决攻击者对网站内容的混淆^[9]。

基于网站内容度的匹配技术也被Yoon等人用于检测暗网中的钓鱼网站^[10]。之前的研究大多着眼针对公开网站或机构的钓鱼，作为一类允许服务提供商和访问者使用匿名网络服务来隐藏身份的平台，暗网上是否存在着钓鱼攻击对研究者来说是一个非常有趣的问题。Yoon等人证实了暗网中普遍存在钓鱼网站。

此外，犯罪分子在实施钓鱼攻击中的技术特点同样可以用来检测钓鱼网站。为了尽可能地模仿目标网站同时也为了降低成本，犯罪分子一般会在钓鱼网站中直接使用原网站的静态资源。根据这一特点，Oest等人开发出了框架Golden Hour，通过分析静态资源文件请求头的信息来检测模仿PayPal的钓鱼网站^[11]。为了进一步提高收益，犯罪分子通常会使用伪装技术来规避各大反钓鱼系统的检测，即通过识别网站访问者的身份来显示不同的页面。为了解决这一难题，Zhang等人提出了基于代码路径执行区别特点的工具CrawlPhish，针对性地检测钓鱼网站在客户端侧的伪装技术^[12]。

除了有效地检测钓鱼网站外，研究人员的另一个研究重点在于检查现有防御机制的有效性。国际域名（internationalized domain names ，IDN）于2003年引入并标准化，支持来自各种语言的Unicode字符，由于来自不同语言的不同字符可能存在相似，随之出现了为网络钓鱼而创建的同形异义IDN。浏览器通常会实施规则来检测可能冒充合法域名的同形异义IDN，一旦识别到，浏览器将不再显示Unicode，而是显示其Punycode以提醒用户。Hu等人系统地评估了针对同形异义IDN的浏览器级防御^[13]。他们通过自动化测试，验证了所有主流浏览器规则均存在可被规避的盲点。

黑名单是用户抵御网络钓鱼的又一道技术防线，但由于其本质上的被动性，在钓鱼网站被加入黑名单之前，用户并不会收到浏览器的警告，因此不少钓鱼网站会利用伪装技术来延迟黑名单爬虫的检测。Adam团队首次研究了伪装对于浏览器黑名单有效性的影响。他们在2019年开发了一个可扩展测试框架PhishFarm^[14]，用于测试反网络钓鱼实体和浏览器黑名单对攻击者伪装的抵抗力^[13]。研究发现，黑名单在流行的移动浏览器中没有按预期发挥作用，使得这些浏览器的用户更容易受到网络钓鱼攻击。在2020年，该团队又开发了能持续检测并衡量钓鱼网站整体生态的框架PhishTime，用以评估黑名单的性能^[15]。

除了防御手段外，研究人员还会主动部署反钓鱼系统以检测在野的钓鱼网站。反钓鱼系统在取得了较好结果的同时也催生出针对性的反分析技术，来对抗反钓鱼系统的检测。为了研究反分析技术的影响，Maroofi等人针对谷歌重验证码、警报框和基于会话的规避等三种基于人工验证的反分析技术进行了测试实验^[16]。作者部署反分析技术的钓鱼网站，然后向主要的服务器端反钓鱼系统举报了这些网站，并持续监控它们在黑名单中的出现情况。Tian等人在利用机器学习分类网络钓鱼域名的同时对钓鱼网站的规避行为进行了研究，在研究中他们发现，在1175个钓鱼网站中，超过90%的网站至少在一个月内成功避开了黑名单检测^[9]。Oest等人则另辟蹊径，尝试从钓鱼攻击发起者的视角来理解反钓鱼系统^[17]。通过分析收集到的超过2300个钓鱼攻击使用的组件，发现钓鱼攻击发起者会利用请求信息、IP信息、域名信息等来主动过滤和对抗来自反钓鱼系统的检测。

为了研究网络钓鱼攻击的生命周期，Oest等人利用框架Golden Hour被动地对网络钓鱼页面的流量进行观测。通过一年时间的长期观测，Golden Hour记录了除爬虫外的480万次访问钓鱼网页的行为，并用其剖析钓鱼攻击的生命周期^[10]。Han等人则通过部署存在漏洞的蜜罐服务器，对钓鱼攻击的整个生命周期进行观测，包括攻击者在蜜罐上安装和测试网络钓鱼页面，到受害者的访问和个人信息发生泄露^[18]。通过长达五个月的数据收集，他们对网络钓鱼攻击的生命周期进行了全面的评估，包括犯罪分子的行为、钓鱼攻击的机制以及反钓鱼系统的更新的实时性。

与其他网络犯罪活动一样，网络钓鱼攻击者和研究人员的对抗从未停止。钓鱼网站不断地使用内容混淆、伪装技术等规避方法来隐藏自身，逃避黑名单和反钓鱼系统等的检测；而研究人员则不断地将包括计算机视觉领域在内的最新研究成果应用于检测钓鱼网站。随着二者对抗形式的不断升级，在钓鱼攻击不断升级自己的工具，规避检测的同时，对钓鱼网站规避方法的研究，特别是犯罪分子如何逃避、对抗反钓鱼系统的检测也会进一步成为未来钓鱼攻击研究的重点。

1.2 诈骗攻击

随着互联网的不断加速发展，诈骗作为历史悠久的犯罪形式，衍生出了许多基于互联网中不同设施的诈骗形式。除了普通民众，电信运营商、零售企业、广告商都有可能成为电信诈骗的受害者。电信诈骗也不止是骗取钱财，犯罪分子还可以通过攻击大型公司获取数以亿计的用户信息，并用这些信息作为下一步的诈骗介质。

网络诈骗的低成本、低技术、易操作等特性使得网络诈骗层出不穷，同时网络诈骗方法的时效性使得诈骗方法极速的更新迭代，出现了各种形式的网络诈骗。本节着重介绍目前常见的诈骗形式，例如电话诈骗(telephone scam)^[19]^-^[22]、问卷诈骗(online survey scam)^[23]、移动广告诈骗(mobile advertisement scam)^[24]^[26]、电子商务诈骗(e-commerce scam)^[27]、技术支持诈骗(technical support scam)^[28]^[20]、货物重运诈骗（reshipping scam）^[29]、约会软件诈骗（online dating scam）^[30]^[28]等，并对其所采用技术以及造成的危害进行归纳总结，对今后的研究工作进行展望。

1）电话诈骗

电话作为人们日常使用最为普遍的通信渠道之一，自然成为了网络犯罪聚焦的重点。在打电话这一简单的过程中--主叫方拨出电话，经过电信运营商的路由到被叫方的SIM卡上接入，电信运营商和用户都可能成为电话诈骗的受害者。据通信诈骗管制协会（Communications Fraud Control Association, CFCA）估计，2019年对全球电信运营商由诈骗造成损失大约为283亿美元^[31]。

很多国家存在只能转售其他运营商服务的中小型运营商，其往往为了获取利益，会尝试劫持原本由其他运营商运营的电话。对此，Sahin等人^[19]^[20]研究了国际收入分成诈骗（International Revenue Share Fraud, IRSF）的生态系统，并提出了对应的检测方法。

随着电话相关技术的发展， IP电话（VoIP）技术出现后，相关诈骗也逐渐增多。Sahin等人^[22]分析了Over-The-Top（OTT）绕过这一新型诈骗形式。OTT指语音聊天软件（Skype等）利用IP网络通话服务即可连接到世界上任何地方^[32]。OTT绕过诈骗则是一种国际过境机构和OTT服务提供商未经主叫方、被叫方、运营商授权的情况下把正常拨出的电话通过IP转移至语音聊天软件的攻击。

IP电话的低成本的特点还催生了IP电话机器人的出现^[33]。传统诈骗电话的主叫方需要电话卡进行呼叫，费用较高，而IP电话机器人就可以自动化大规模低成本拨打诈骗电话。由于受害者通常在真的收到财产损失之后才会报告诈骗电话相关情况，导致大众无法即时了解最新的骗术。对此，Gupta等人^[21]制作了大规模的电话蜜罐Phoneypot，对每个电话号码关联了年龄、地址等信息，吸引诈骗罪犯拨打这些号码，收集相关数据并进行分析。

2）问卷诈骗

在线问卷是市场调研的重要步骤，通常，调查者只需在在线问卷网站上创建一份问卷，通过邮件或广告发送链接给用户，并搭配上金钱或实物奖励，就可以吸引用户进行填写。诈骗分子也注意到在线问卷市场的这一特点，通过丰厚奖励吸引用户填写问卷，事后却不兑现承诺的方式，进行欺诈活动。此外，部分攻击者还以邮寄奖品为由让用户填写敏感信息，或是用免费的礼品卡为诱饵让用户下载恶意软件、勒索软件造成更大的损失。SURVEYLANCE^[23]根据网站的内容、网络流量和页面的整体表现形式等信息构建分类器，在用户访问在线问卷时作为浏览器插件检查用户是否陷入了问卷诈骗，并通过大规模实验分析，检测出8623个问卷诈骗网站。

3）移动广告诈骗

手机应用丰富了人们的生活，应用内的移动广告则是免费应用的主要盈利方式。2020年，移动广告市场规模已扩大至1870亿美元，占全球广告市场预算的30.5%^[34]。广告商根据广告呈现次数、用户点击量或应用安装量向广告服务提供商缴纳费用。移动广告诈骗的攻击者主要来自广告商的竞争对手，其主要目的是在用户没有被吸引的情况下耗尽广告商的推广费。

移动广告诈骗主要共有3种方法。对于按照用户点击量付费的广告商，一种方法是攻击者利用僵尸网络大量点击广告URL增加点击量的费用^[35]，二是攻击者欺骗用户点击不想看的广告^[36]产生不必要的点击量。而对于按照广告呈现次数付费的广告商，攻击者则把广告隐藏在应用的其他元素下方，使得广告商在用户没有看到广告的情况下，依旧支付了广告费用。

MAdFraud^[24]通过检测用户未交互时的HTTP请求来识别移动广告诈骗，并发现在130339个安卓应用和35,087个恶意软件中有30%的应用会在后台运行时请求广告。Chen^[25]等人关注了应用中通过webview实现的HTML广告，设计了一套监测移动广告生命周期的框架MADLIFE。Kim等人^[26]基于AOSP^[37]实现了一个动态测试移动广告诈骗的框架FraudDetective，利用堆栈跟踪从打开应用到提交广告诈骗活动之间的调用关系，检测是否有用户输入的存在。

4）电子商务诈骗

电子商务是互联网发展后的一大应用，用户在电子商务平台购买产品时通常会根据产品的销量和评价决定是否购买商品。电子商务诈骗则是商家为了产生虚假的销量而逐渐形成的一套产业链[38]。刷单诈骗是目前电子商务中广泛存在的一种诈骗形式：商家在刷单平台上招募工人，利用虚假的账户购买目标商品，但实际上没有真实的任何商品行为发生^[39]。另外，也有攻击者通过抢购促销商品，再加价转手获利^[27]。

电子商务诈骗依赖即时通讯软件与工人交流，Wang等人^[27]开发了Aubrey聊天机器人，把犯罪分子与工人的对话建模成有限状态机实现机器人在电子商务诈骗领域的自主对话，通过大量与犯罪分子对话来收集电子商务诈骗的信息。Aubrey通过加入了150个地下即时通讯群聊，并与470名犯罪分子对话的方式，发现了38个售卖账号的地下市场和65个推广诈骗任务的附属网络。

5）技术支持诈骗

当电脑出现问题时，人们习惯于寻找在线的技术支持来帮助解决问题，技术支持诈骗则针对这种场景产生。2019年美国联邦调查局网络犯罪投诉中心共收到48个国家13,633 件来自受害者的技术支持诈骗投诉，损失总额超过 5400 万美元，并较2018年增长了40%^[40]。在技术支持诈骗中，攻击者会创造一个带有流行软件和安全公司标志的网页，在用户访问时警告用户的设备已经感染了恶意软件，并诱导用户联系网页中显示的免费号码至“技术支持中心”寻求帮助。受害者通常会被要求下载远程桌面软件，允许远程技术人员通过软件操控设备。此时攻击者就会通过报错信息让受害者更加确信真的感染了恶意软件，要求受害者支付数百美元的恶意软件卸载费。除此之外，攻击者进一步可在受害者的设备上安装恶意软件窃取受害者的个人信息，进行后续攻击。

针对这一网络犯罪形式，Chen等人^[28]基于网站的主机、网页大小和代码中链接数、关键词数等42个特征通过人工智能开发了技术支持诈骗检测系统AI@TTS。Miramirkhani等人^[20]构建了一个分布式的爬虫（基础设施）来寻找涉及技术支持诈骗的域名，他们认为恶意广告是用户被吸引到技术支持诈骗页面的原因，通过从域名停放(domain parking)^[41]和广告短链接爬取到的恶意广告访问可能存在的技术支持页面，并根据警示框、免费电话等特点找出其中的技术支持诈骗网站。

6）货物重运诈骗

2013年底，Target（美国第二大折扣零售商)的数据遭到泄露，攻击者获得了多达1.1亿名客户的信用卡和个人信息^[42]。为了将被盗取的信用卡信息变现，犯罪分子使用被盗的信用卡从在线商店购买高价值的产品，然后将这些物品运送给以“在家工作”为幌子招募“马仔”。“马仔”再将收到的产品转发给远在国外的犯罪分子进行转售以获取非法利润^[43]。Hao等人^[29]通过FBI的案件记录对这种诈骗产业链进行了分析。

7）约会软件诈骗

人们习惯于通过约会软件认识新的朋友，然而五花八门的约会软件中也出现了诈骗行为。Hu等人^[30]对诈骗约会软件进行了系统性的研究。诈骗约会软件通过广告吸引用户下载，注册步骤简单，且不需要任何个人信息，降低了用户的警惕性。在第一次登录后几分钟内就会有多名伪装成女性的机器人发来搭讪信息，并与受害者进行初步对话，如果想继续后续的对话就需要额外付费。付费后，就不会再有账户继续与受骗用户聊天。Hu等人^[30]通过关键词匹配和静态分析应用内付款SDK检测诈骗约会软件，在9个安卓应用市场的250万应用中检测出了22个家族的967个诈骗约会软件。

学术界对预防诈骗的方法进行了广泛讨论。对于诈骗而言，首要的预防方式是对用户的教育，许多诈骗方式（如诈骗约会软件、技术支持诈骗）对于用户而言没有复杂的技术，需要全社会的一起努力提高安全意识了解诈骗的危险性^[23]。对于通过网页进行诈骗的诈骗形式，浏览器可以提供帮助。如Miramirkhani等人^[20]认为浏览器应能帮助用户离开如技术支持诈骗中的网页，提供一种关闭网页的快捷方式并在浏览器重启时不会重新打开。另外，大量的账号和电话号码等敏感信息是电子商务诈骗与电话诈骗的基础，遏制此类诈骗可以通过使用多重认证提高敏感信息注册和使用的门槛来打破犯罪产业链^[27]。对于货物重运诈骗，物流平台可以通过分析跟踪包裹信息的人员特点来及时制止还没运出的包裹^[20]。

目前对于诈骗的检测仍主要依赖于监督学习，攻击者可以通过规避监督学习所用的特征来逃避检测，未来可以发展半监督或无监督学习来检测约会软件诈骗^[30]和问卷诈骗^[23]。同时，对于电子商务诈骗的信息收集目前使用的机器人是通过人为定义的有限状态机在与犯罪人员进行交流^[27]，在这一方向上未来可以通过深度学习等技术来探索更加通用的网络犯罪信息收集技术。另外，由于各大应用商店均不允许相关欺诈类软件进行上架传播，网络犯罪相关的应用软件分发方式也值得进一步研究。

1.3 恶意挖矿

恶意挖矿，是近来随着加密货币兴起而产生的一种全新的网络犯罪形式，即犯罪分子在未经许可的情况下侵占受害者的计算资源来挖取加密货币并获得利润。根据侵占计算资源方式的不同，可以将恶意挖矿分为针对浏览器的恶意挖矿与针对主机的恶意挖矿。其中由于针对浏览器的恶意挖矿影响范围更广、受害者更多，因此学术界对其的研究也更为深入。现代Web技术的发展使得浏览器具备了充分利用硬件资源的能力，利用这一特性，针对浏览器的恶意挖矿可以在未得到受害者的许可的情况下，通过网页内的JavaScript和 WebAssembly与硬件资源直接进行交互进而隐蔽地占用计算资源挖掘加密货币。一般而言，针对浏览器的恶意挖矿主要有4种攻击方式：1)网站所有者主动发起恶意挖矿；2)犯罪分子在非法入侵网站后部署恶意挖矿脚本；3)通过入侵网站使用的第三方库、广告服务后分发恶意挖矿脚本；4)入侵路由器利用中间人攻击进行恶意挖矿。

为了检测恶意挖矿，研究人员往往从代码结构、网络请求、资源消耗等不同维度提取特征并进行检测，即在已知恶意挖矿常见的代码、行为特征的情况下，通过与待检测网站或脚本提取的特征进行匹配，如果发现目标的特征符合已知任意一类恶意挖矿的特征，则将其判定为恶意挖矿。基于对已知恶意挖矿的检测，研究人员往往会进一步对恶意挖矿的犯罪规模、非法收益等指标进行评估。本节将从恶意挖矿的检测方法，特别是检测时依赖的运行信息、程序行为、网络流量等特征，以及对恶意挖矿这种新型网络犯罪的规模评估这两方面介绍现有工作的研究成果。

在所有检测恶意挖矿的动态特征中，CPU事件是最常用的特征，恶意挖矿往往会带来非常高的CPU占用。但由于大部分恶意挖矿会主动限制CPU占用，因此单独使用CPU占用作为特征必然会带来大量的漏报或误报，需要更多的其他特征来辅助更精准地检测。考虑到恶意挖矿不仅仅会进行大量的计算，还会频繁地读写内存、磁盘，与远端矿池进行交互，Ning等人提出了工具CapJack^[44]，通过提取CPU利用信息、内存信息、磁盘读写信息与网络流量信息作为特征，输入到分类器模型进行检测。此外，作为当代CPU的必要组成部分，在程序执行时硬件性能计数器会记录CPU内部执行的信息，如寄存器值、执行的指令等，这些信息同样能作为反映程序行为的特征。基于以上观察，R. Tahir等提出了基于硬件辅助分析的恶意挖矿检测方法^[45]，提取硬件性能计数器内的信息作为特征，然后使用随机森林作为分类器模型进行判别。

除了CPU信息的特征外，针对浏览器的恶意挖矿还会表现出特定的行为特征，比如周期性的哈希函数调用等。对此，Hong等人提出了基于哈希函数的分析器和基于堆栈结构的分析器来记录恶意挖矿的行为表现^[46]。其中基于哈希函数的分析器会监控特定恶意挖矿常用哈希算法的出现频率，如门罗币的CryptoNight算法，而基于堆栈结构的分析器则针对恶意挖矿中函数调用周期性的行为特征，校验相同函数调用出现的时间频率来分析调用的规律性。基于以上两类分析器提出的基于阈值的分析器经检验不存在任何误报。类似地，Kharraz等人同样发现恶意挖矿中存在着特定的行为特征，比如脚本编译和执行的时间上存在着显著的差异，据此他们提出了工具Outguard^[47]通过对浏览器进行插桩，Outguard会收集网页内的资源加载时间、脚本编译时间、执行时间、垃圾回收信息，结合CPU的使用数据作为特征，然后使用支持向量机作为分类器模型进行检测。

为了更好地利用受害者机器的性能，针对浏览器的恶意挖矿往往会加载大量的WebAssembly文件。据此，Bian等人提出了基于动态代码插桩的检测工具MineThrottle^[48]，通过动态插入的性能计数器，MineThrottle能精准分析不同代码块在运行时的CPU使用情况进而检测恶意挖矿现象。而Rüth等人从WebAssembly的文件特征入手，通过构建恶意挖矿常用WebAssembly的文件签名来检测浏览器中的恶意挖矿^[49]。无独有偶，Konoth等人同样考虑到了WebAssembly文件在恶意挖矿中的重要作用，他们提出的检测工具MineSweeper通过计算WebAssembly中密码学相关指令的代码签名来识别特定的加密货币挖矿代码^[50]。此外，针对恶意挖矿的哈希算法利用CPU缓存的特性，MineSweeper还会进一步监控L1和L3缓存来辅助判断。Naseem等人则通过对WebAssembly进行分类的方式来检测恶意挖矿^[51]。他们提出的工具MINOS*将对恶意挖矿的检测问题转换为了对特定WebAssembly文件的二分类问题^[12]，针对任何加载了WebAssembly的网站，如果分类器确认了文件的恶意性，即可知对应网站存在恶意挖矿行为。

除了有效地检测恶意挖矿外，对恶意挖矿的影响规模、非法收益进行分析也是研究者关注的重点。Hong等人通过网站平均访问量、停留时间、CPU的平均哈希速率以及挖矿的平均收益估算得出，在2018年，恶意挖矿平均每月会影响超过一千万以上的用户，平均每天额外消耗27.8万千瓦时的电能，为攻击者带来平均5.9万美元的日收入^[46]。Konoth等人也用了类似的方法来估计恶意挖矿的收益，通过对网站访问时间和访问量的估计^[50]。除了估算恶意挖矿的收益外， Saad等人还对比了恶意挖矿和在线广告的收益^[52]。他们的研究结果证明了在线广告的收益依旧远高于恶意挖矿的收益，因此从收益角度分析，绝大多数情况下恶意挖矿来自犯罪分子的非法入侵。

而Bijmans等人将目光放到了利用路由器进行中间人攻击的恶意挖矿上^[53]。在受害者使用被感染的路由器访问互联网时，犯罪分子会控制路由器在返回的内容中插入恶意挖矿的相关脚本，此时访问任意网站都会被攻击者劫持进行挖矿活动。此外，他们还通过先从互联网服务提供商获取区域内的全部流量信息，再从流量信息中提取全部可能被劫持的网络请求，结合每个请求返回网站的平均停留时间和CPU的平均哈希速率的方式估算该种攻击的收益情况。

为了分析恶意挖矿对互联网的整体影响，Bijmans等人对互联网进行了两次不同规模采样和检测^[54]，发现高排名的网站中恶意挖矿现象更为普遍。此外，他们还发现检测出的恶意挖矿绝大多数与成人内容网站相关，而2018年Hong等人发现仅有18%的恶意挖矿发生在成人内容相关的网站上，说明恶意挖矿行为随着时间的变化也在不断地扩散演进。

加密货币日益高涨的价格使得近年来恶意挖矿相关的网络犯罪不仅没有偃旗息鼓，反而更加猖獗，而且随着犯罪技术的不断演进，恶意挖矿的攻击方式和对抗手段也日趋复杂。可以看到从2018年初到目前，恶意挖矿的攻击手段已经从简单的在网站上部署挖矿脚本，通过内容混淆、限制使用率来对抗黑名单的检测，一步步发展为通过路由器漏洞的中间人攻击来分发恶意挖矿脚本的恶意挖矿，攻击原理更加复杂，且覆盖范围更广、非法所得更多。因此，针对恶意挖矿新的攻击形式和对抗方法的研究依旧会是未来恶意挖矿领域研究重点。复旦大学计算机科学技术学院洪赓杨珉

登录查看更多