ACL 2025 | 融合文本残差（Textual Residual）的文本梯度提示词优化

论文题目：RIOT: Efficient Prompt Refinement with Residual Optimization Tree

本文作者：周宸逸（浙江大学）、史峥言（伦敦大学学院）、姚远（浙江大学）、梁磊（蚂蚁集团）、陈华钧（浙江大学）、张强（浙江大学）

发表会议：ACL 2025 Main

论文链接：敬请期待

代码链接：https://github.com/Qing1Zhong/RiOT

欢迎转载，转载请注明出处****

一、动机

近年来，大型语言模型（LLMs）在各类自然语言任务中展现出卓越性能。然而，其性能高度依赖于输入提示（prompts）的质量。尽管已有若干提示词自动优化框架（如 APE、OPRO、TextGrad 等），但现有方法仍面临两项核心挑战：

优化空间受限导致探索能力不足：现有方法在每轮迭代中通常仅生成单一候选提示词，缺乏对提示词语义空间的系统性探索，难以捕捉潜在的高质量优化方向，限制了优化策略在复杂任务中的泛化能力。
语义漂移问题影响稳定性：提示词的迭代更新过程中常出现语义偏移，即为某一特定场景优化的提示词可能破坏其在其他场景中的有效性，导致泛化性能下降。该问题本质上类似于持续学习中的稳定性–可塑性冲突（Stability–Plasticity Dilemma），但尚未在离散文本优化场景中获得系统性解决。

二、方法概述

本工作提出 RiOT（Residual Optimization Tree）框架，系统性解决上述挑战。RiOT 是一种基于文本梯度的黑盒 prompt 优化方法，融合树结构搜索、信息论启发的选择机制和残差语义融合策略，主要特点包括：

树结构搜索机制：在每轮优化中并行生成多个候选提示词（节点），构建树状搜索结构，从而系统性扩展优化空间。
困惑度驱动的节点选择策略：从信息增益角度出发，优先选择困惑度更高（信息量更大）的候选提示词，提升探索多样性与信息密度。
文本残差连接机制：引入语义残差融合策略，在父子节点间保留语义一致性，有效缓解语义漂移；

三、实验结果

实验在五个具有代表性的推理任务上进行，涵盖逻辑推理（LogiQA 2.0）、常识推理（StrategyQA）、数学计算（GSM8K）、语义计数（Object Counting）与时间理解（Date Understanding），目标模型为 GPT-3.5-turbo，优化模型为 GPT-4o。所有方法均采用相同的数据采样策略，基于固定训练与验证集进行优化，最终在测试集上评估性能，并报告五次独立运行的平均准确率及标准差。结果表明，RiOT 在所有任务中均实现了对人工编写提示词的全面超越，并在四项任务中优于现有主流提示词优化框架。其中，在 GSM8K 上的性能提升幅度最为明显，相较最佳人工编写提示词提升 7.8 %。此外，在迁移泛化测试中，RiOT 所优化的提示词在提示词迁移场景（即为一种模型优化的提示词能够直接应用于另一种模型）及模型迁移场景（即更换不同的目标模型）下均保持稳定增益，进一步验证了其语义稳定性与模型适配能力。为进一步说明不同自动优化方法在提示结构上的差异，本文对 APE、OPRO、TextGrad 与 RiOT 的优化结果进行了对比分析。如图所示，不同方法在强调步骤完整性、输出格式规范、冗余规避、验证逻辑与知识结合等维度展现出明显差异。RiOT 通过更丰富的结构设计与细节提示，表现出更强的步骤明确性、语义稳定性与知识兼容性，从而在数学推理任务(GSM8K)中取得最优性能（81.2）。 四、总结