Browsers often include security features to detect phishing web pages. In the past, some browsers evaluated an unknown URL for inclusion in a list of known phishing pages. However, as the number of URLs and known phishing pages continued to increase at a rapid pace, browsers started to include one or more machine learning classifiers as part of their security services that aim to better protect end users from harm. While additional information could be used, browsers typically evaluate every unknown URL using some classifier in order to quickly detect these phishing pages. Early phishing detection used standard machine learning classifiers, but recent research has instead proposed the use of deep learning models for the phishing URL detection task. Concurrently, text embedding research using transformers has led to state-of-the-art results in many natural language processing tasks. In this work, we perform a comprehensive analysis of transformer models on the phishing URL detection task. We consider standard masked language model and additional domain-specific pre-training tasks, and compare these models to fine-tuned BERT and RoBERTa models. Combining the insights from these experiments, we propose URLTran which uses transformers to significantly improve the performance of phishing URL detection over a wide range of very low false positive rates (FPRs) compared to other deep learning-based methods. For example, URLTran yields a true positive rate (TPR) of 86.80% compared to 71.20% for the next best baseline at an FPR of 0.01%, resulting in a relative improvement of over 21.9%. Further, we consider some classical adversarial black-box phishing attacks such as those based on homoglyphs and compound word splits to improve the robustness of URLTran. We consider additional fine tuning with these adversarial samples and demonstrate that URLTran can maintain low FPRs under these scenarios.


翻译:浏览器通常包含一种或多种机器学习分类器, 作为安全服务的一部分, 目的是更好地保护终端用户免受伤害。 虽然可以使用额外信息, 浏览器通常使用某些分类器来评估每个未知的 URL, 以便快速检测这些phishing 网页。 一些浏览器评估了一个未知的 URL, 以便纳入已知的phish 页面列表。 但是,由于URL 和已知的phishing 页面的数量继续快速增加, 浏览器开始将一个或多个机器学习分类器作为其安全服务的一部分, 目的是更好地保护终端用户免受伤害。 虽然可以使用额外的信息, 浏览器通常使用某些分类器来评估每个未知的 URL 。 早期pherm 检测器使用标准遮掩语言模型和额外的域端域际协议前任务, 并将这些模型与精确的 BERT 和 RoBERT 模型相比较, 提议使用最精确的 URLT 模型, 将这些正值的演示到最精确的URLA 。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年8月22日
最新《Transformers模型》教程,64页ppt
专知会员服务
299+阅读 · 2020年11月26日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
142+阅读 · 2020年7月6日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Python NLP入门教程
Python开发者
9+阅读 · 2017年11月19日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年10月18日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
20+阅读 · 2018年1月17日
VIP会员
相关VIP内容
专知会员服务
24+阅读 · 2021年8月22日
最新《Transformers模型》教程,64页ppt
专知会员服务
299+阅读 · 2020年11月26日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
142+阅读 · 2020年7月6日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Python NLP入门教程
Python开发者
9+阅读 · 2017年11月19日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员