A Just-In-Time (JIT) defect prediction model is a classifier to predict if a commit is defect-introducing. Recently, CC2Vec -- a deep learning approach for Just-In-Time defect prediction -- has been proposed. However, CC2Vec requires the whole dataset (i.e., training + testing) for model training, assuming that all unlabelled testing datasets would be available beforehand, which does not follow the key principles of just-in-time defect predictions. Our replication study shows that, after excluding the testing dataset for model training, the F-measure of CC2Vec is decreased by 38.5% for OpenStack and 45.7% for Qt, highlighting the negative impact of excluding the testing dataset for Just-In-Time defect prediction. In addition, CC2Vec cannot perform fine-grained predictions at the line level (i.e., which lines are most risky for a given commit). In this paper, we propose JITLine -- a Just-In-Time defect prediction approach for predicting defect-introducing commits and identifying lines that are associated with that defect-introducing commit (i.e., defective lines). Through a case study of 37,524 commits from OpenStack and Qt, we find that our JITLine approach is 8%-10% more accurate (AUC), 17%-51% more cost-effective (PCI@20%LOC), 70-100 times faster than the state-of-the-art approaches (i.e., CC2Vec and DeepJIT) and the fine-grained predictions at the line level by our approach are 133%-150% more accurate (Top-10 Accuracy) than the baseline NLP approach. Therefore, our JITLine approach may help practitioners to better prioritize defect-introducing commits and better identify defective lines.


翻译:公正时时( JIT) 缺陷预测模型是一个分类器, 用来预测一个承诺是否正在引入缺陷。 最近, 提出了 CC2Vec, CC2Vec -- -- 一个用于在时间里进行缺陷预测的深层次学习方法。 然而, CC2Vec 要求为模式培训提供整个数据集( 即培训+测试), 假设所有未贴标签的测试数据集都事先可用, 这不符合在时间里进行缺陷预测的关键原则 。 我们的复制研究表明, 在排除用于模型培训的测试数据集之后, CC2Vec F 的测量方法( OpenStack ) 减少了38.5%, 而 Qt 减少了45.7%。 但是, CC2Vec 要求将测试数据集排除在时间里( 培训+测试) 用于模型培训的负面影响。 此外, CC2Vec 无法在线级一级进行精确的预测( 例如, 最危险的是, 直线是, 直线 JJ51 和直线 直径( 直径) 直线 直径( 直径) 直径) 直线 直线 直线 直线 直线 直线 直线 直线 直达 直达 直达

0
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2020年9月6日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
5+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2018年9月12日
Arxiv
8+阅读 · 2018年4月8日
VIP会员
相关资讯
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
5+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员