File fragment classification (FFC) on small chunks of memory is essential in memory forensics and Internet security. Existing methods mainly treat file fragments as 1d byte signals and utilize the captured inter-byte features for classification, while the bit information within bytes, i.e., intra-byte information, is seldom considered. This is inherently inapt for classifying variable-length coding files whose symbols are represented as the variable number of bits. Conversely, we propose Byte2Image, a novel data augmentation technique, to introduce the neglected intra-byte information into file fragments and re-treat them as 2d gray-scale images, which allows us to capture both inter-byte and intra-byte correlations simultaneously through powerful convolutional neural networks (CNNs). Specifically, to convert file fragments to 2d images, we employ a sliding byte window to expose the neglected intra-byte information and stack their n-gram features row by row. We further propose a byte sequence \& image fusion network as a classifier, which can jointly model the raw 1d byte sequence and the converted 2d image to perform FFC. Experiments on FFT-75 dataset validate that our proposed method can achieve notable accuracy improvements over state-of-the-art methods in nearly all scenarios. The code will be released at https://github.com/wenyang001/Byte2Image.


翻译:文件片段分类(FFC)在内存取证和互联网安全中是必须的。现有方法主要将文件片段视为1维字节信号,并利用捕获的字节间特征进行分类,而字节内的位信息即字节内信息很少被考虑。这对于对可变长度编码文件进行分类是不合适的,因为文件中的符号被表示为可变数量的位。相反,我们提出了Byte2Image,这是一种新的数据增强技术,将被忽视的字节内信息引入到文件片段中,并将其重新视为2D灰度图像,从而通过强大的卷积神经网络(CNN)同时捕获字节间和字节内的相关性。具体而言,为了将文件片段转换为2D图像,我们采用滑动字节窗口来暴露被忽视的字节内信息,并逐行堆叠其n-gram特征。我们进一步提出了一个字节序列和图像融合网络作为分类器,该网络可以联合建模原始的1维字节序列和转换后的2D图像来执行FFC。在FFT-75数据集上的实验证明,与最先进的方法相比,我们提出的方法在几乎所有情况下都可以实现显著的准确度提高。代码将发布在 https://github.com/wenyang001/Byte2Image。

0
下载
关闭预览

相关内容

Graph Transformer近期进展
专知会员服务
62+阅读 · 2023年1月5日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
41+阅读 · 2022年3月12日
专知会员服务
16+阅读 · 2021年9月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
已删除
将门创投
14+阅读 · 2019年5月29日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2020年5月20日
Arxiv
31+阅读 · 2018年11月13日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员