算法设计(AD)在各个领域的高效问题解决中至关重要。大型语言模型(LLM)的出现显著提升了该领域的自动化和创新,提供了新的视角和优越的解决方案。在过去的三年中,LLM在算法设计(LLM4AD)中的应用取得了显著进展,应用领域广泛,包括优化、机器学习、数学推理和科学探索。鉴于该领域的快速发展和应用范围的扩展,进行系统性的综述已成为必要。本论文对LLM4AD领域的研究工作进行了系统性综述。首先,我们概述并总结了现有研究成果。接着,我们从四个维度——LLM的作用、搜索技术、提示策略和应用领域——对现有研究进行了系统分类和评审。此外,我们讨论了各个领域的成就与挑战,以及LLM4AD在应对这些挑战方面的能力。最后,我们探讨了当前的局限性,并提出了若干开放性问题和未来研究的潜在方向。
附加关键词和短语:算法设计、大型语言模型、学习优化、优化、启发式方法、超启发式方法、进化计算。
1 引言
算法在解决工业、经济、医疗和技术等多个领域的各种问题中发挥着关键作用[32, 82]。传统的手工算法设计方法需要大量的专家知识和时间,过程繁琐且耗时。因此,越来越多的研究者关注将学习和计算智能技术整合到算法开发过程中,以简化并优化算法的设计[12, 154]。近年来,大型语言模型(LLMs)作为生成式人工智能的重大突破,因其庞大的模型规模、海量的训练数据及其在数学推理[5]、代码生成[80]和科学发现[163]等多个研究领域中的出色表现而备受瞩目。
在过去三年中,将大型语言模型应用于算法设计(LLM4AD)逐渐成为一个新兴的研究领域,有望彻底改变算法的构思、优化和实施方式。LLM的强大性能和适应性在提高和转变算法设计过程方面展现出了巨大的潜力,包括启发式生成[98]、代码优化[109],甚至为特定问题定制新算法的创建[54]。这种方法不仅减少了设计阶段所需的人力,还提升了解决方案的创造性和效率[98, 139]。
尽管LLM4AD备受关注,但这一新兴领域内的系统综述仍然稀缺。现有文献主要关注LLM在特定算法上下文中的单一应用,缺乏对方法、应用、挑战和未来方向的系统概览。已有的综述主要集中在LLM用于特定优化主题[66, 72, 177],或LLM在电子设计自动化[205]、规划[129]、软件工程[69]、推荐系统[176]和智能代理[165]等特定问题上的应用。本论文旨在弥补这一空白,提供对LLM在算法设计领域的系统性综述,探索其应用、讨论关键挑战,并提出未来的研究方向。通过整合这些见解,本文将加深对LLM在算法设计中潜力的理解,并为该领域进一步创新奠定基础。
本论文的贡献如下:
LLM4AD的系统性综述:我们对最近三年内发表的180余篇研究论文进行了系统综述,不仅汇总了该领域的现状,还对研究成果进行了分类,深入分析了方法、结果和算法设计的进展。该综述可为新入门的研究人员和寻求最新进展的资深专家提供宝贵的资源。
多维分类法的开发:我们引入了一个多维分类法,将LLM4AD的研究工作和功能分为四个不同的维度:1) LLM在算法设计中的角色,包括作为优化器、预测器、信息提取器和设计者,阐明了LLM在算法设计中的具体贡献;2) 搜索方法,分析了LLM在算法设计中用于导航和优化搜索空间的各种方法;3) 提示方法,探讨了多样化的提示策略;4) 应用领域,确定了LLM在解决复杂算法问题时所应用的关键领域和行业。此分类法不仅澄清了LLM4AD的研究现状,还有助于识别未来研究的空白和机会。
关于局限性和未来方向的讨论:我们不仅对现有文献进行总结,还深入分析了LLM用于算法设计研究中的局限性,讨论了可扩展性、可解释性、高成本和安全性等挑战。此外,我们提出了若干潜在的未来研究方向,以应对这些限制,包括开发特定领域的LLM、探索多模态LLM、实现与人类专家交互的系统、使用LLM进行算法评估、理解LLM行为、推动完全自动化的算法设计,以及为LLM在算法设计中的系统评估建立基准标准。这些讨论旨在激发新的研究方法,推动该领域的进一步发展。
2 方法和分类法
2.1 综述范围
本文旨在对算法设计的大型语言模型(LLM4AD)这一新兴领域的现有研究工作进行系统性综述和分类。我们进一步明确了本文综述的范围如下:
我们不打算涵盖所有关于LLM和算法的文献。具体而言,我们排除了其他分支的工作,如针对LLM优化的算法(例如提示工程算法[141])和LLM训练算法[1]。
“大型语言模型”指的是具有足够规模,以实现各种任务的强大零样本性能的语言模型,包括语言理解、代码生成和数学推理等。这些模型通常采用变换器架构并以自回归的方式运行[204]。
我们排除了使用较小模型进行算法设计的研究,例如传统模型算法和机器学习辅助算法[12]。尽管“大型”模型的定义存在挑战,但目前大多数前沿的LLM包含超过十亿个参数[119, 204]。
仅具备视觉处理功能的其他大型模型不在我们的考虑范围内,但包含语言处理功能的多模态LLM属于我们的范围。
在此背景下,算法指的是一组设计用于解决问题的数学指令或规则,特别是在计算机上执行时[32]。该广义定义涵盖了传统数学算法[5]、大多数启发式方法[113, 117]以及某些可以解释为算法的智能体或策略[179]。
2.2 统计
我们介绍了论文收集和筛选的详细流程,分为四个阶段:
第一阶段:数据提取和收集:我们通过Google Scholar、Web of Science和Scopus收集相关论文。我们的搜索逻辑是标题必须包含以下两个组中的至少一个词的组合:“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”(例如,LLM和优化、LLMs和算法)。作为一个快速发展的研究领域,大多数关于LLM4AD的论文以Arxiv等预印本形式在线发表,因此从Google Scholar收集的论文数量显著多于Web of Science和Scopus(超过800篇)。去重后,截至2024年7月1日,我们最终收集了850篇论文。
第二阶段:摘要筛选:我们首先检查每篇论文的标题和摘要,以高效排除无关的论文。排除标准包括非英语论文、非算法设计领域及不使用大型语言模型的论文。筛选后,剩余260篇论文。
第三阶段:全文筛选:在此阶段,我们仔细阅读每篇论文的全文,剔除未包含相关内容的论文。筛选后,剩余160篇论文。
第四阶段:补充:为了避免遗漏重要研究,我们根据领域内的相关知识手动搜索相关文献。整合额外的论文后,最终收集了180余篇。
我们将首先概述LLM4AD的论文列表,并呈现一个分类法来系统地审视进展。除了整理好的论文列表外,本综述还包含一些在2024年7月1日之后发布的出版物,统计数据将根据需要更新。 2.3 概述
图2a展示了按月划分的论文发表趋势。图中显示了与LLM4AD相关的研究活动显著增加,尤其是大多数研究集中在过去一年内进行。这表明LLM4AD是一个新兴领域,随着不同领域学者逐渐意识到其巨大的潜力,未来研究成果的数量将显著增加。值得注意的是,作为快速扩展的领域,大部分研究首先以Arxiv预印本的形式发表,其中许多随后被顶级会议(如ICML和NeurIPS)接收。 图2c和图2b展示了主要贡献机构及其所属国家在LLM4AD领域的研究分布。美国位居首位,中国紧随其后,两国的论文数量占总数的50%。接下来的八个国家(包括新加坡、加拿大和日本)共同贡献了总出版量的三分之一。主要参与该领域研究的机构包括著名大学如清华大学、南洋理工大学、多伦多大学,以及大型企业如华为、微软和谷歌。此分布表明了该研究主题的广泛关注及其在实际应用中的巨大潜力。 在图3中,我们基于所有被审查论文的标题和摘要生成了词云,其中每个词至少出现五次。该词云展示了前80个关键词,分为四个颜色编码的集群,分别为“语言”、“GPT”、“搜索与优化”和“科学发现”。几个关键字如“演化”、“策略”、“优化器”和“智能体”也被重点标出。