Automatic vulnerability detection on C/C++ source code has benefitted from the introduction of machine learning to the field, with many recent publications considering this combination. In contrast, assembly language or machine code artifacts receive little attention, although there are compelling reasons to study them. They are more representative of what is executed, more easily incorporated in dynamic analysis and in the case of closed-source code, there is no alternative. We propose ROMEO, a publicly available, reproducible and reusable binary vulnerability detection benchmark dataset derived from the Juliet test suite. Alongside, we introduce a simple text-based assembly language representation that includes context for function-spanning vulnerability detection and semantics to detect high-level vulnerabilities. Finally, we show that this representation, combined with an off-the-shelf classifier, compares favorably to state-of-the-art methods, including those operating on the full C/C++ code.


翻译:在C/C++源代码上自动检测脆弱性受益于对实地的机器学习,许多近期出版物都考虑了这种组合。相反,组装语言或机器代码文物很少受到重视,尽管有令人信服的理由加以研究。它们更能代表执行什么,更容易纳入动态分析,在封闭源代码的情况下,没有其他选择。我们提议采用由朱丽叶测试套件产生的ROMEO,这是一个公开的、可复制的和可重复使用的二元脆弱性检测基准数据集。此外,我们引入了一个简单的文本组合语言表达法,包括功能覆盖脆弱性检测和语义以探测高层次脆弱性的背景。最后,我们表明,这种表达法与现成的分类法相比,与现成的分类法比较优异,包括使用完整的C/C++代码的方法。

0
下载
关闭预览

相关内容

语言表示一直是人工智能、计算语言学领域的研究热点。从早期的离散表示到最近的分散式表示,语言表示的主要研究内容包括如何针对不同的语言单位,设计表示语言的数据结构以及和语言的转换机制,即如何将语言转换成计算机内部的数据结构(理解)以及由计算机内部表示转换成语言(生成)。
专知会员服务
33+阅读 · 2021年10月9日
专知会员服务
36+阅读 · 2021年7月7日
自监督学习最新研究进展
专知会员服务
77+阅读 · 2021年3月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
0+阅读 · 2022年2月11日
Arxiv
0+阅读 · 2022年2月11日
Arxiv
4+阅读 · 2019年9月5日
VIP会员
相关资讯
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员