Deep research models perform multi-step research to produce long-form, well-attributed answers. However, most open deep research models are trained on easily verifiable short-form QA tasks via reinforcement learning with verifiable rewards (RLVR), which does not extend to realistic long-form tasks. We address this with Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training; this allows the rubrics to incorporate information that the model has newly explored and to provide discriminative, on-policy feedback. Using RLER, we develop Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research. Across four long-form deep research benchmarks in science, healthcare and general domains, DR Tulu substantially outperforms existing open deep research models, and matches or exceeds proprietary deep research systems, while being significantly smaller and cheaper per query. To facilitate future research, we release all data, models, and code, including our new MCP-based agent infrastructure for deep research systems.


翻译:深度研究模型通过多步骤研究生成具有充分引证的长篇答案。然而,大多数开源深度研究模型通过基于可验证奖励的强化学习(RLVR)在易于验证的短篇问答任务上进行训练,这种方法无法扩展到现实的长篇任务。我们提出基于演化评分标准的强化学习(RLER)来解决这一问题:在训练过程中构建并维护与策略模型协同演化的评分标准,使评分标准能够整合模型新探索的信息,并提供具有区分度的同策略反馈。利用RLER,我们开发了深度研究Tulu模型(DR Tulu-8B),这是首个为开放式长篇深度研究任务直接训练的开源模型。在科学、医疗和通用领域的四个长篇深度研究基准测试中,DR Tulu显著优于现有开源深度研究模型,达到或超越专有深度研究系统的性能,同时模型规模更小且单次查询成本显著降低。为促进未来研究,我们公开了所有数据、模型和代码,包括用于深度研究系统的新型基于MCP的智能体架构。

0
下载
关闭预览

相关内容

【ICML2022】GALAXY:极化图主动学习
专知会员服务
31+阅读 · 2022年6月12日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员