论文题目:RIOT: Efficient Prompt Refinement with Residual Optimization Tree
本文作者:周宸逸(浙江大学)、史峥言(伦敦大学学院)、姚远(浙江大学)、梁磊(蚂蚁集团)、陈华钧(浙江大学)、张强(浙江大学)
发表会议:ACL 2025 Main
论文链接:敬请期待
代码链接:https://github.com/Qing1Zhong/RiOT
欢迎转载,转载请注明出处****
一、动机
近年来,大型语言模型(LLMs)在各类自然语言任务中展现出卓越性能。然而,其性能高度依赖于输入提示(prompts)的质量。尽管已有若干提示词自动优化框架(如 APE、OPRO、TextGrad 等),但现有方法仍面临两项核心挑战:
**
**
二、方法概述
本工作提出 RiOT(Residual Optimization Tree) 框架,系统性解决上述挑战。RiOT 是一种基于文本梯度的黑盒 prompt 优化方法,融合树结构搜索、信息论启发的选择机制和残差语义融合策略,主要特点包括:
三、实验结果
实验在五个具有代表性的推理任务上进行,涵盖逻辑推理(LogiQA 2.0)、常识推理(StrategyQA)、数学计算(GSM8K)、语义计数(Object Counting)与时间理解(Date Understanding),目标模型为 GPT-3.5-turbo,优化模型为 GPT-4o。所有方法均采用相同的数据采样策略,基于固定训练与验证集进行优化,最终在测试集上评估性能,并报告五次独立运行的平均准确率及标准差。 结果表明,RiOT 在所有任务中均实现了对人工编写提示词的全面超越,并在四项任务中优于现有主流提示词优化框架。其中,在 GSM8K 上的性能提升幅度最为明显,相较最佳人工编写提示词提升 7.8 %。
此外,在迁移泛化测试中,RiOT 所优化的提示词在提示词迁移场景(即为一种模型优化的提示词能够直接应用于另一种模型)及模型迁移场景(即更换不同的目标模型)下均保持稳定增益,进一步验证了其语义稳定性与模型适配能力。
为进一步说明不同自动优化方法在提示结构上的差异,本文对 APE、OPRO、TextGrad 与 RiOT 的优化结果进行了对比分析。如图所示,不同方法在强调步骤完整性、输出格式规范、冗余规避、验证逻辑与知识结合等维度展现出明显差异。RiOT 通过更丰富的结构设计与细节提示,表现出更强的步骤明确性、语义稳定性与知识兼容性,从而在数学推理任务(GSM8K)中取得最优性能(81.2)。 四、总结