Hypertext transfer protocol (HTTP) is one of the most widely used protocols on the Internet. As a consequence, most attacks (i.e., SQL injection, XSS) use HTTP as the transport mechanism. Therefore, it is crucial to develop an intelligent solution that would allow to effectively detect and filter out anomalies in HTTP traffic. Currently, most of the anomaly detection systems are either rule-based or trained using manually selected features. We propose utilizing modern unsupervised language representation model for embedding HTTP requests and then using it to classify anomalies in the traffic. The solution is motivated by methods used in Natural Language Processing (NLP) such as Doc2Vec which could potentially capture the true understanding of HTTP messages, and therefore improve the efficiency of Intrusion Detection System. In our work, we not only aim at generating a suitable embedding space, but also at the interpretability of the proposed model. We decided to use the current state-of-the-art RoBERTa, which, as far as we know, has never been used in a similar problem. To verify how the solution would work in real word conditions, we train the model using only legitimate traffic. We also try to explain the results based on clusters that occur in the vectorized requests space and a simple logistic regression classifier. We compared our approach with the similar, previously proposed methods. We evaluate the feasibility of our method on three different datasets: CSIC2010, CSE-CIC-IDS2018 and one that we prepared ourselves. The results we show are comparable to others or better, and most importantly - interpretable.


翻译:超文本传输协议( HTTP) 是互联网上使用最为广泛的协议之一。 因此,大多数攻击( 即 SQL 注入, XSS) 都使用HTTP 来作为运输机制。 因此, 关键是要开发一个智能解决方案, 以便有效地检测和清除HTTP交通中的异常现象。 目前, 大多数异常检测系统不是基于规则, 就是使用人工选择的功能来进行解释。 我们提议使用现代不受监督的语言代表模式来嵌入 HTTP 请求, 然后用它来分类交通中的异常现象。 解决方案的动机是自然语言处理( NLP ) 所使用的方法, 如 Doc2Vec 等, 它可以捕捉到对 HTTP 信息的真实理解, 从而提高入侵探测系统的效率。 在我们的工作中, 我们不仅旨在创造合适的嵌入空间空间空间空间空间空间, 我们还决定使用当前状态的RoBERTA, 据我们所知, 从未在类似的问题上使用过同样的使用过。 为了校正方法, 校验我们用一个简单的路径, 我们用一个简单的路径来测试我们之前的路径, 。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
39+阅读 · 2020年10月13日
专知会员服务
39+阅读 · 2020年9月6日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
已删除
将门创投
6+阅读 · 2019年6月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
6+阅读 · 2018年2月8日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
39+阅读 · 2020年10月13日
专知会员服务
39+阅读 · 2020年9月6日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
已删除
将门创投
6+阅读 · 2019年6月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员