Benchmarking is a common practice in software engineering to assess the qualities and performance of software variants, coming from multiple competing systems or from configurations of the same system. Benchmarks are used notably to compare and understand variant performance, fine-tune software, detect regressions, or design new software systems. The execution of benchmarks to get a complete picture of software variants is highly costly in terms of computational resources and time. In this paper, we propose a novel approach for reducing benchmarks while maintaining stable rankings, using test suite optimization techniques. That is, we remove instances from the benchmarks while trying to keep the same rankings of the variants on all tests. Our method, BISection Sampling, BISS, strategically retains the most critical tests and applies a novel divide-and-conquer approach to efficiently sample among relevant remaining tests. We experiment with datasets and use cases from LLM leaderboards, SAT competitions, and configurable systems for performance modeling. Our results show that our method outperforms baselines even when operating on a subset of variants. Using BISS, we reduce the computational cost of the benchmarks on average to 44% and on more than half the benchmarks by up to 99% without loss in ranking stability.


翻译:基准测试是软件工程中评估软件变体质量与性能的常用方法,这些变体可来源于多个竞争系统或同一系统的不同配置。基准测试主要用于比较和理解变体性能、微调软件、检测性能回归以及设计新软件系统。然而,为全面评估软件变体而执行完整基准测试会消耗大量计算资源和时间。本文提出一种在保持排序稳定性的前提下减少基准测试量的新方法,该方法基于测试套件优化技术。具体而言,我们在移除基准测试中部分测试实例的同时,力求保持所有测试中变体的排序不变。我们提出的二分采样法(BISection Sampling, BISS)策略性地保留最关键测试,并采用新颖的分治方法对剩余相关测试进行高效采样。我们使用来自大语言模型排行榜、SAT竞赛以及可配置系统性能建模的数据集和用例进行实验验证。结果表明,即使在变体子集上运行,我们的方法仍优于基线方法。通过应用BISS,我们在不损失排序稳定性的前提下,将基准测试的计算成本平均降低至44%,并在超过半数的基准测试中实现高达99%的成本缩减。

0
下载
关闭预览

相关内容

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence
专知会员服务
36+阅读 · 2024年11月11日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员