Pretrained models for network traffic can utilize large-scale raw data to learn the essential characteristics of network traffic, and generate distinguishable results for input traffic without considering specific downstream tasks. Effective pretrained models can significantly optimize the training efficiency and effectiveness of downstream tasks, such as traffic classification, attack detection, resource scheduling, protocol analysis, and traffic generation. Despite the great success of pretraining in natural language processing, there is no work in the network field. Considering the diverse demands and characteristics of network traffic and network tasks, it is non-trivial to build a pretrained model for network traffic and we face various challenges, especially the heterogeneous headers and payloads in the multi-pattern network traffic and the different dependencies for contexts of diverse downstream network tasks. To tackle these challenges, in this paper, we make the first attempt to provide a generative pretrained model for both traffic understanding and generation tasks. We propose the multi-pattern network traffic modeling to construct unified text inputs and support both traffic understanding and generation tasks. We further optimize the adaptation effect of the pretrained model to diversified tasks by shuffling header fields, segmenting packets in flows, and incorporating diverse task labels with prompts. Expensive experiments demonstrate the effectiveness of our NetGPT in a range of traffic understanding and generation tasks, and outperform state-of-the-art baselines by a wide margin.


翻译:针对网络流量的预训练模型利用大规模的原始数据学习网络流量的基本特征,而不考虑特定的下游任务,能够为流量分类、攻击检测、资源调度、协议分析和流量生成等下游任务显着优化训练效率和效果。有效的预训练模型能够显着优化下游任务的培训效率和效果,例如流量分类,攻击检测,资源调度,协议分析和流量生成。尽管预训练在自然语言处理中取得了巨大的成功,但在网络领域中还没有任何成果。考虑到网络流量和网络任务的多样化要求和特征,构建网络流量的预训练模型是一项不容易的任务,我们面临着各种挑战,特别是在多模式网络流量中的异构标头和负载以及不同下游网络任务的不同依赖。为了解决这些挑战,在本文中,我们首次尝试提供用于流量理解和生成任务的生成式预训练模型。我们提出了多模式网络流量建模方法,构建统一的文本输入,支持流量理解和生成任务。我们通过对标头字段进行打乱,对流中的数据包进行分割以及通过提示将多样化的任务标签结合到模型中,进一步优化了预训练模型对各种任务的适应效果。昂贵的实验证明了我们的NetGPT在各种流量理解和生成任务方面的有效性,并以较大的优势优于现有技术水平。

0
下载
关闭预览

相关内容

基于预训练语言模型的文本生成
专知会员服务
29+阅读 · 2022年1月28日
专知会员服务
82+阅读 · 2021年10月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2022年11月1日
Arxiv
45+阅读 · 2022年9月6日
Arxiv
14+阅读 · 2022年5月6日
VIP会员
相关VIP内容
基于预训练语言模型的文本生成
专知会员服务
29+阅读 · 2022年1月28日
专知会员服务
82+阅读 · 2021年10月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员