Effective information retrieval requires reasoning over partial evidence and refining strategies as information emerges. Yet current approaches fall short: neural retrievers lack reasoning capabilities, large language models (LLMs) provide semantic depth but at prohibitive cost, and query rewriting or decomposition limits improvement to static transformations. As a result, existing methods fail to capture the iterative dynamics of exploration, feedback, and revision that complex user queries demand. We introduce Orion, a training framework that enables compact models (350M-1.2B parameters) to perform iterative retrieval through learned search strategies. Orion combines: (1) synthetic trajectory generation and supervised fine-tuning to encourage diverse exploration patterns in models, (2) reinforcement learning (RL) that rewards effective query refinement and backtracking behaviors, and (3) inference-time beam search algorithms that exploit the self-reflection capabilities learned during RL. Despite using only 3% of the training data available, our 1.2B model achieves 77.6% success on SciFact (vs. 72.6% for prior retrievers), 25.2% on BRIGHT (vs. 22.1%), 63.2% on NFCorpus (vs. 57.8%), and remains competitive on FEVER, HotpotQA, and MSMarco. It outperforms retrievers up to 200-400x larger on five of six benchmarks. These findings suggest that retrieval performance can emerge from learned strategies, not just model scale, when models are trained to search, reflect, and revise.


翻译:高效的信息检索需要对局部证据进行推理,并在信息出现时动态调整策略。然而现有方法存在局限:神经检索器缺乏推理能力,大语言模型(LLMs)虽能提供语义深度但计算成本过高,而查询重写或分解方法仅局限于静态转换。这些方法均未能捕捉复杂用户查询所需的探索、反馈与修正的迭代动态过程。本文提出Orion训练框架,使紧凑模型(3.5亿至12亿参数)能够通过习得的搜索策略执行迭代检索。Orion融合了三个核心组件:(1)通过合成轨迹生成与监督微调激发模型的多样化探索模式;(2)采用强化学习(RL)奖励有效的查询优化与回溯行为;(3)在推理阶段应用波束搜索算法,利用RL训练中获得的自反思能力。尽管仅使用现有训练数据的3%,我们的12亿参数模型在SciFact数据集上达到77.6%的成功率(对比先前检索器72.6%),在BRIGHT上达25.2%(对比22.1%),在NFCorpus上达63.2%(对比57.8%),并在FEVER、HotpotQA和MSMarco数据集上保持竞争力。在六项基准测试中,该模型在五项上超越了参数量达200-400倍的检索器。这些结果表明,当模型被训练为具备搜索、反思与修正能力时,检索性能的提升可源于习得的策略而不仅是模型规模。

0
下载
关闭预览

相关内容

互联网
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员