Detecting the presence of bots in distributed software development activity is very important in order to prevent bias in large-scale socio-technical empirical analyses. In previous work, we proposed a classification model to detect bots in GitHub repositories based on the pull request and issue comments of GitHub accounts. The current study generalises the approach to git contributors based on their commit messages. We train and evaluate the classification model on a large dataset of 6,922 git contributors. The original model based on pull request and issue comments obtained a precision of 0.77 on this dataset. Retraining the classification model on git commit messages increased the precision to 0.80. As a proof-of-concept, we implemented this model in BoDeGiC, an open source command-line tool to detect bots in git repositories.


翻译:检测分布式软件开发活动中存在机器人的存在非常重要,以防止大规模社会技术经验分析中的偏差。在以往的工作中,我们根据拉动请求提出了一个分类模型,以探测GitHub仓库中的机器人,并发表GitHub账户的评论。当前研究概括了基于其承诺信息对投稿者采用的方法。我们培训和评价了6 922 git提供方的大型数据集的分类模型。基于拉动请求和发布评论的原始模型在这个数据集上获得了0.77的精确度。对Git承诺信息分类模型的再培训将精确度提高到0.80。作为概念的证明,我们在BoDeGic应用了这一模型,这是一个用于检测Git储存库中的机器人的开放源指令-线工具。

0
下载
关闭预览

相关内容

Git 是一个为了更好地管理 Linux 内核开发而创立的分布式版本控制和软件配置管理软件。 国内外知名 Git 代码托管网站有: GitHub.com Coding.net code.csdn.net ...
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
9+阅读 · 2018年4月12日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员