论文题目:RIOT: Efficient Prompt Refinement with Residual Optimization Tree

本文作者:周宸逸(浙江大学)、史峥言(伦敦大学学院)、姚远(浙江大学)、梁磊(蚂蚁集团)、陈华钧(浙江大学)、张强(浙江大学)

发表会议:ACL 2025 Main

论文链接:敬请期待

代码链接:https://github.com/Qing1Zhong/RiOT

欢迎转载,转载请注明出处****

一、动机

近年来,大型语言模型(LLMs)在各类自然语言任务中展现出卓越性能。然而,其性能高度依赖于输入提示(prompts)的质量。尽管已有若干提示词自动优化框架(如 APE、OPRO、TextGrad 等),但现有方法仍面临两项核心挑战:

  • 优化空间受限导致探索能力不足:现有方法在每轮迭代中通常仅生成单一候选提示词,缺乏对提示词语义空间的系统性探索,难以捕捉潜在的高质量优化方向,限制了优化策略在复杂任务中的泛化能力。
  • 语义漂移问题影响稳定性:提示词的迭代更新过程中常出现语义偏移,即为某一特定场景优化的提示词可能破坏其在其他场景中的有效性,导致泛化性能下降。该问题本质上类似于持续学习中的稳定性–可塑性冲突(Stability–Plasticity Dilemma),但尚未在离散文本优化场景中获得系统性解决。

**

**

二、方法概述

本工作提出 RiOT(Residual Optimization Tree) 框架,系统性解决上述挑战。RiOT 是一种基于文本梯度的黑盒 prompt 优化方法,融合树结构搜索、信息论启发的选择机制和残差语义融合策略,主要特点包括:

  1. 树结构搜索机制:在每轮优化中并行生成多个候选提示词(节点),构建树状搜索结构,从而系统性扩展优化空间。
  2. 困惑度驱动的节点选择策略:从信息增益角度出发,优先选择困惑度更高(信息量更大)的候选提示词,提升探索多样性与信息密度。
  3. 文本残差连接机制:引入语义残差融合策略,在父子节点间保留语义一致性,有效缓解语义漂移;

三、实验结果

实验在五个具有代表性的推理任务上进行,涵盖逻辑推理(LogiQA 2.0)、常识推理(StrategyQA)、数学计算(GSM8K)、语义计数(Object Counting)与时间理解(Date Understanding),目标模型为 GPT-3.5-turbo,优化模型为 GPT-4o。所有方法均采用相同的数据采样策略,基于固定训练与验证集进行优化,最终在测试集上评估性能,并报告五次独立运行的平均准确率及标准差。 结果表明,RiOT 在所有任务中均实现了对人工编写提示词的全面超越,并在四项任务中优于现有主流提示词优化框架。其中,在 GSM8K 上的性能提升幅度最为明显,相较最佳人工编写提示词提升 7.8 %。 此外,在迁移泛化测试中,RiOT 所优化的提示词在提示词迁移场景(即为一种模型优化的提示词能够直接应用于另一种模型)及模型迁移场景(即更换不同的目标模型)下均保持稳定增益,进一步验证了其语义稳定性与模型适配能力。 为进一步说明不同自动优化方法在提示结构上的差异,本文对 APE、OPRO、TextGrad 与 RiOT 的优化结果进行了对比分析。如图所示,不同方法在强调步骤完整性、输出格式规范、冗余规避、验证逻辑与知识结合等维度展现出明显差异。RiOT 通过更丰富的结构设计与细节提示,表现出更强的步骤明确性、语义稳定性与知识兼容性,从而在数学推理任务(GSM8K)中取得最优性能(81.2)。 四、总结

  1. 提出首个引入“残差优化”思想的树状提示词自动优化框架,拓展提示词优化空间的同时保持语义一致性;
  2. 构建基于困惑度的选择机制,有效提升优化多样性与信息量探索能力;
  3. 提出文本残差连接算法,借助嵌入空间语义匹配机制缓解语义漂移问题;
  4. 在五个公开基准数据集与多个强基线对比中验证其 SOTA 性能。
成为VIP会员查看完整内容
0

相关内容

AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
25+阅读 · 2024年12月26日
AAAI2025|TrustUQA:统一结构化数据问答的可信框架
专知会员服务
20+阅读 · 2024年12月20日
ACL 2024|UNIHD: 统一的多模态幻觉检测框架
专知会员服务
23+阅读 · 2024年7月12日
ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库
专知会员服务
32+阅读 · 2024年6月20日
SIGIR2024|现实场景下的多模态知识图谱补全
专知会员服务
30+阅读 · 2024年5月11日
ICLR2024 | 语言模型知识编辑的鲁棒性研究
专知会员服务
18+阅读 · 2024年3月15日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
48+阅读 · 2024年2月2日
专知会员服务
17+阅读 · 2021年9月18日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
21+阅读 · 2019年9月6日
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
【泡泡图灵智库】通过基准标志匹配改善的SFM算法(ECCV)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
13+阅读 · 2020年8月3日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
25+阅读 · 2024年12月26日
AAAI2025|TrustUQA:统一结构化数据问答的可信框架
专知会员服务
20+阅读 · 2024年12月20日
ACL 2024|UNIHD: 统一的多模态幻觉检测框架
专知会员服务
23+阅读 · 2024年7月12日
ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库
专知会员服务
32+阅读 · 2024年6月20日
SIGIR2024|现实场景下的多模态知识图谱补全
专知会员服务
30+阅读 · 2024年5月11日
ICLR2024 | 语言模型知识编辑的鲁棒性研究
专知会员服务
18+阅读 · 2024年3月15日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
48+阅读 · 2024年2月2日
专知会员服务
17+阅读 · 2021年9月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员