基础模型的兴起使得研究重点从资源密集型的微调转向了提示工程(Prompt Engineering),这一范式通过输入设计而非权重更新来引导模型行为。尽管手动提示工程在可扩展性、适应性和跨模态对齐方面存在局限性,但自动化方法,如基于基础模型(FM)的优化、进化方法、基于梯度的优化以及强化学习,提供了有希望的解决方案。然而,现有的综述大多在不同模态和方法论之间碎片化。本文首次通过统一的优化理论视角,全面综述了自动化提示工程。我们将提示优化形式化为在离散、连续和混合提示空间上的最大化问题,并按照优化变量(指令、软提示、示例)、任务特定目标和计算框架系统地组织了相关方法。通过将理论公式与文本、视觉以及多模态领域的实际实现相结合,本综述为研究人员和实践者建立了一个基础框架,并突出了约束优化和面向智能体的提示设计中尚未充分探索的前沿领域。


1 引言

预训练基础模型(FMs,如大型语言模型(LLMs)或视觉语言模型(VLMs))的变革性影响已经彻底改变了自然语言处理和视觉理解,使得在复杂认知任务中实现前所未有的能力,涵盖从数学推理到多智能体协作系统等各种应用 [XCG+25]。随着模型规模扩大到万亿参数级别,传统的微调方法面临着计算上的巨大障碍。这种资源密集性本质上限制了基础模型在实际应用中的部署,特别是在边缘设备和时间敏感的场景中,如自动驾驶决策或实时医疗诊断。几种注重效率的方法已经出现,包括参数高效微调、模型蒸馏、稀疏训练和动态架构方法 [WWL+24]。虽然这些方法在不同程度上减少了计算需求,但它们仍然依赖于参数更新,这需要大量的训练数据和反向传播机制。这在需要快速适应的场景中尤为限制性——例如,需要每小时更新模型的金融欺诈检测系统,或由于患者数据隐私问题而无法重新训练的医疗应用。提示工程通过范式转变规避了这些限制:它不是修改神经网络的权重,而是通过战略性输入设计重新编程基础模型的行为 [SSS+24,Ama24,VD24]。 手动提示工程通过链式思维(Chain-of-Thought, CoT)和少量示例选择等技术表现出了显著的广泛适用性 [AJSK24]。然而,实际应用中它面临着根本性限制:1)依赖专家,需要繁琐的试错过程 [SSS+24];2)输入格式敏感,轻微的语法变化(例如标点符号的更改或指令措辞的不同)会导致性能波动 [SCTS24];3)静态设计无法适应不断变化的输入,如社交媒体话语模式的变化 [ZMH+22]。这些局限性在多模态系统中更加显著,因为手动提示需要解决跨模态对齐的问题——例如,确保视觉语言模型(VLMs)中的视觉基准精度需要精确协调图像区域描述符和文本查询,而这些协调往往是人为错位的 [GHC+23]。 自动化提示优化通过系统性地探索组合提示空间来解决这些问题,采用进化策略通过遗传操作变异令牌序列,强化学习(RL)将提示视为可微分策略,元学习方法通过基于梯度的超参数优化来适应提示。关键是,这些方法展现出了超越人工设计的能力,例如自动发现平衡多个目标的提示 [MRK25] 或根据机器人控制系统中的实时反馈自适应地重新配置提示 [MLW+24]。 现有的综述在方法论和模态的边界上依然支离破碎。虽然基础性工作确立了基于提示的学习理论 [LYF+23] 和多模态应用 [GHC+23],但专门的综述主要集中于压缩技术 [LLSC24] 或手动设计模式 [SSS+24,Ama24,VD24]。尽管 [CXW+24] 讨论了效率方面的问题,但尚不存在对跨模态自动化提示工程的全面综述。我们的工作建立了第一个统一的优化理论框架(图1),用于跨模态的自动化提示工程。我们将该问题形式化为在离散、连续和混合提示空间上最大化期望性能指标(第3节),其中不同的变量类型(硬指令、软提示、少量示例和混合变量)对应于具体的优化子问题。本综述通过这一视角系统地组织现有方法:(1)优化空间(第4节)将提示元素按文本、视觉和多模态领域分类;(2)目标函数(第5节)通过性能指标和约束的数学实例化来描述各种任务类别;(3)优化方法(第6节)将技术分类为代表性的计算范式(基础模型(FM)为基础、进化方法、基于梯度的方法和强化学习(RL))。这种统一的视角不仅有助于解释现有方法的有效性,还为开发更复杂的自动化提示工程算法奠定了严格的基础,弥合了理论理解与实际实施之间的差距,同时识别出尚未充分探索的研究前沿。

成为VIP会员查看完整内容
27

相关内容

【LoG 2024教程】几何生成模型教程
专知会员服务
32+阅读 · 2024年11月28日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
大模型时代的自动图表理解综述
专知会员服务
68+阅读 · 2024年3月19日
【WWW2024】知识数据对齐的弱监督异常检测
专知会员服务
23+阅读 · 2024年2月7日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2020年11月29日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
448+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【LoG 2024教程】几何生成模型教程
专知会员服务
32+阅读 · 2024年11月28日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
大模型时代的自动图表理解综述
专知会员服务
68+阅读 · 2024年3月19日
【WWW2024】知识数据对齐的弱监督异常检测
专知会员服务
23+阅读 · 2024年2月7日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2020年11月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员