Static software metrics, e.g., size, complexity and coupling are used in defect prediction research as well as software quality models to evaluate software quality. Static analysis tools also include boundary values for complexity and size that generate warnings for developers. However, recent studies found that complexity metrics may be unreliable indicators for understandability of the source code and therefore may have less impact on software quality. To explore the relationship between quality and changes, we leverage the intent of developers about what constitutes a quality improvement in their own code base. We manually classify a randomized sample of 2,533 commits from 54 Java open source projects as quality improving depending on the intent of the developer by inspecting the commit message. We distinguish between perfective and corrective maintenance via predefined guidelines and use this data as ground truth for fine-tuning a state-of-the art deep learning model created for natural language processing. The benchmark we provide with our ground truth indicates that the deep learning model can be confidently used for commit intent classification. We use the model to increase our data set to 125,482 commits. Based on the resulting data set, we investigate the differences in size and 14 static source code metrics between changes that increase quality and other changes. In addition, we investigate which files are targets of quality improvements. We find that quality improving commits are smaller than other commits. Perfective changes have a positive impact on static source code metrics while corrective changes do tend to add complexity. Furthermore, we find that files which are the target of perfective maintenance already have a lower median complexity than other files.


翻译:静态分析工具还包括复杂程度和大小的边界值,为开发者提供警告;然而,最近的研究发现,复杂程度指标对于源代码的可理解性来说可能是不可靠的指标,因此对软件质量的影响可能较小。为了探索质量和变化之间的关系,我们利用开发者的意图,即它们自己的代码基础的质量改进是什么。我们手工将54个爪哇开放源项目的2 533个随机抽样分类为质量改进质量,这取决于开发者检查承诺信息的意图。我们通过预先确定的指导方针区分精确性和纠正性维护,并将这些数据作为改进源代码的地面真相,以微调源代码,为自然语言处理创造的艺术深层次学习模型。我们提供的基准表明,深层次学习模型能够被有信心地用于进行意向分类。我们用这个模型将我们的数据集增加到125 482个。基于由此生成的数据集,我们调查大小差异和纠正性源代码的精确性维护情况,而我们则在改进其他质量和精确源码的质量方面进行更小的修改。我们用这个模型来测量其它质量的变化,我们用一个比其他质量的更小的源码进行更精确的修改。我们去研究。

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2020年8月3日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
TensorFlow.js 实例上手指南
专知
3+阅读 · 2018年12月10日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年10月24日
VIP会员
相关VIP内容
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
3+阅读 · 2020年8月3日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
TensorFlow.js 实例上手指南
专知
3+阅读 · 2018年12月10日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员