Background: The use of large language models (LLMs) in the title-abstract screening process of systematic reviews (SRs) has shown promising results, but suffers from limited performance evaluation. Aims: Create a benchmark dataset to evaluate the performance of LLMs in the title-abstract screening process of SRs. Provide evidence whether using LLMs in title-abstract screening in software engineering is advisable. Method: We start with 169 SR research artifacts and find 24 of those to be suitable for inclusion in the dataset. Using the dataset we benchmark title-abstract screening using 9 LLMs. Results: We present the SESR-Eval (Software Engineering Systematic Review Evaluation) dataset containing 34,528 labeled primary studies, sourced from 24 secondary studies published in software engineering (SE) journals. Most LLMs performed similarly and the differences in screening accuracy between secondary studies are greater than differences between LLMs. The cost of using an LLM is relatively low - less than $40 per secondary study even for the most expensive model. Conclusions: Our benchmark enables monitoring AI performance in the screening task of SRs in software engineering. At present, LLMs are not yet recommended for automating the title-abstract screening process, since accuracy varies widely across secondary studies, and no LLM managed a high recall with reasonable precision. In future, we plan to investigate factors that influence LLM screening performance between studies.


翻译:背景:在系统综述的标题-摘要筛选过程中使用大型语言模型已显示出有前景的结果,但其性能评估仍存在局限。目的:创建一个基准数据集,用于评估LLMs在系统综述标题-摘要筛选过程中的性能。为在软件工程领域的标题-摘要筛选中使用LLMs是否可取提供证据。方法:我们从169个系统综述研究工件出发,发现其中24个适合纳入数据集。利用该数据集,我们使用9种LLM对标题-摘要筛选进行了基准测试。结果:我们提出了SESR-Eval(软件工程系统综述评估)数据集,其中包含34,528篇已标注的原始研究,来源于24篇发表于软件工程期刊的二次研究。大多数LLM表现相似,且二次研究之间的筛选准确度差异大于不同LLM之间的差异。使用LLM的成本相对较低——即使对于最昂贵的模型,每个二次研究的成本也低于40美元。结论:我们的基准测试能够监测人工智能在软件工程系统综述筛选任务中的表现。目前,尚不推荐使用LLM自动化标题-摘要筛选过程,因为不同二次研究间的准确度差异很大,且没有LLM能在保持合理精确度的同时实现高召回率。未来,我们计划研究影响LLM在不同研究间筛选性能的因素。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员