Artificial Intelligence (AI) is beginning to transform the research process by automating the discovery of new solutions. This shift depends on the availability of reliable verifiers, which AI-driven approaches require to validate candidate solutions. Research focused on improving systems performance is especially well-suited to this paradigm because system performance problems naturally admit such verifiers: candidates can be implemented in real systems or simulators and evaluated against predefined workloads. We term this iterative cycle of generation, evaluation, and refinement AI-Driven Research for Systems (ADRS). Using several open-source ADRS instances (i.e., OpenEvolve, GEPA, and ShinkaEvolve), we demonstrate across ten case studies (e.g., multi-region cloud scheduling, mixture-of-experts load balancing, LLM-based SQL, transaction scheduling) that ADRS-generated solutions can match or even outperform human state-of-the-art designs. Based on these findings, we outline best practices (e.g., level of prompt specification, amount of feedback, robust evaluation) for effectively using ADRS, and we discuss future research directions and their implications. Although we do not yet have a universal recipe for applying ADRS across all of systems research, we hope our preliminary findings, together with the challenges we identify, offer meaningful guidance for future work as researcher effort shifts increasingly toward problem formulation and strategic oversight. Note: This paper is an extension of our prior work [14]. It adds extensive evaluation across multiple ADRS frameworks and provides deeper analysis and insights into best practices.


翻译:人工智能正开始通过自动化发现新解决方案来变革研究过程。这一转变依赖于可靠验证器的可用性,因为人工智能驱动的方法需要验证候选方案。专注于提升系统性能的研究尤其适合这种范式,因为系统性能问题天然具备此类验证条件:候选方案可在真实系统或模拟器中实现,并依据预定义工作负载进行评估。我们将这种生成、评估与优化的迭代循环称为系统人工智能驱动研究。通过多个开源ADRS实例(即OpenEvolve、GEPA与ShinkaEvolve),我们在十项案例研究(如多区域云调度、专家混合负载均衡、基于LLM的SQL、事务调度)中证明,ADRS生成的解决方案能够匹配甚至超越人类设计的最先进方案。基于这些发现,我们提出了有效运用ADRS的最佳实践(如提示规范层级、反馈量、稳健评估),并探讨了未来研究方向及其影响。虽然我们尚未获得将ADRS应用于所有系统研究的通用方案,但希望我们的初步发现与识别出的挑战,能为研究者将精力日益转向问题构建与战略监督的未来工作提供有效指引。注:本文是我们前期工作[14]的延伸,增加了跨多ADRS框架的广泛评估,并对最佳实践进行了更深入的分析与洞察。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员