Software engineering researchers look for software artifacts to study their characteristics or to evaluate new techniques. In this paper, we introduce DUETS, a new dataset of software libraries and their clients. This dataset can be exploited to gain many different insights, such as API usage, usage inputs, or novel observations about the test suites of clients and libraries. DUETS is meant to support both static and dynamic analysis. This means that the libraries and the clients compile correctly, they are executable and their test suites pass. The dataset is composed of open-source projects that have more than five stars on GitHub. The final dataset contains 395 libraries and 2,874 clients. Additionally, we provide the raw data that we use to create this dataset, such as 34,560 pom.xml files or the complete file list from 34,560 projects. This dataset can be used to study how libraries are used by their clients or as a list of software projects that successfully build. The client's test suite can be used as an additional verification step for code transformation techniques that modify the libraries.


翻译:软件工程研究者寻找软件文物以研究其特性或评估新技术。 在本文中, 我们引入了DUETS, 这是软件库及其客户的新数据集。 这个数据集可以被利用以获得许多不同见解, 如 API 使用、 使用投入或对客户和图书馆测试套件的新观察。 DUETS 旨在支持静态和动态分析。 这意味着图书馆和客户正确编译, 它们是可以执行的, 测试套件通过。 数据集由 GitHub 上有五个以上恒星的开源项目组成。 最终数据集包含 395 个图书馆和 2 874 个客户。 此外, 我们提供了用于创建该数据集的原始数据, 例如 34 560 ppm. xml 文件或来自 34 560 项目的完整文件列表。 这个数据集可以用来研究图书馆如何被客户使用, 或者作为成功构建的软件项目列表。 客户测试套件可以用作修改图书馆的代码转换技术的额外核查步骤 。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
77+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
56+阅读 · 2021年3月4日
【干货书】机器学习特征工程,217页pdf
专知会员服务
125+阅读 · 2021年2月6日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
因果图,Causal Graphs,52页ppt
专知会员服务
247+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
Java 线程究竟占用多少内存
ImportNew
6+阅读 · 2019年6月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
已删除
将门创投
3+阅读 · 2017年10月12日
Arxiv
0+阅读 · 2021年5月10日
Arxiv
0+阅读 · 2021年5月7日
Arxiv
0+阅读 · 2021年5月6日
Arxiv
0+阅读 · 2021年5月5日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
56+阅读 · 2021年3月4日
【干货书】机器学习特征工程,217页pdf
专知会员服务
125+阅读 · 2021年2月6日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
因果图,Causal Graphs,52页ppt
专知会员服务
247+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
相关资讯
Java 线程究竟占用多少内存
ImportNew
6+阅读 · 2019年6月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
已删除
将门创投
3+阅读 · 2017年10月12日
Top
微信扫码咨询专知VIP会员