Data-driven research on the automated discovery and repair of security vulnerabilities in source code requires comprehensive datasets of real-life vulnerable code and their fixes. To assist in such research, we propose a method to automatically collect and curate a comprehensive vulnerability dataset from Common Vulnerabilities and Exposures (CVE) records in the public National Vulnerability Database (NVD). We implement our approach in a fully automated dataset collection tool and share an initial release of the resulting vulnerability dataset named CVEfixes. The CVEfixes collection tool automatically fetches all available CVE records from the NVD, gathers the vulnerable code and corresponding fixes from associated open-source repositories, and organizes the collected information in a relational database. Moreover, the dataset is enriched with meta-data such as programming language, and detailed code and security metrics at five levels of abstraction. The collection can easily be repeated to keep up-to-date with newly discovered or patched vulnerabilities. The initial release of CVEfixes spans all published CVEs up to 9 June 2021, covering 5365 CVE records for 1754 open-source projects that were addressed in a total of 5495 vulnerability fixing commits. CVEfixes supports various types of data-driven software security research, such as vulnerability prediction, vulnerability classification, vulnerability severity prediction, analysis of vulnerability-related code changes, and automated vulnerability repair.


翻译:对源代码中安全脆弱性的自动发现和修复进行数据驱动研究,需要对源代码中安全脆弱性的自动发现和修复进行综合的数据集,这需要从NVD自动获取所有可用的CVE记录,从相关的开放源代码库收集脆弱代码和相应的固定数据,并在相关数据库中组织收集收集的信息。此外,在公共国家脆弱性数据库(NVD)中,用诸如编程语言等元数据以及五级抽象的详细代码和安全衡量标准丰富数据集。我们采用完全自动化的数据集收集工具实施我们的方法,并共享由此产生的脆弱性数据集(CVevefixes)的初始发布。CVeveix的初始发布将所有现有的CVE记录自动提取到2021年6月9日,涵盖相关的开放源存储库的脆弱代码和相应的固定数据,在相关数据库中,收集收集的脆弱程度综合数据集,如编程语言和详细代码和安全度指标,在5级中进行详细重复收集,以跟上新发现或补补的脆弱程度。CVefix的初始发布覆盖所有已公布的CVE记录,涵盖1765 CVE的脆弱程度记录和相应的相应修正,支持了1754年开放源脆弱性预测模型中的所有脆弱性分析。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
专知会员服务
17+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2018年8月21日
A Bibliometric Analysis of the Surveys in Blockchain
Arxiv
0+阅读 · 2021年9月20日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2018年8月21日
Top
微信扫码咨询专知VIP会员