AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.


翻译:AI协科学家正逐渐成为协助人类研究者实现科研目标的重要工具。这类AI协科学家的核心功能在于能够根据给定的研究目标与约束条件生成研究方案。生成的研究方案既可供研究者进行头脑风暴,也可在进一步优化后付诸实施。然而,当前的语言模型在生成完全符合约束条件与隐性要求的研究方案方面仍存在困难。本研究探索如何利用海量现有科研论文语料训练语言模型,以生成更优质的研究方案。我们通过从多个学科领域的论文中自动提取研究目标及目标导向的评分准则,构建了可扩展且多样化的训练语料库。随后,我们采用基于自我评分的强化学习方法训练研究方案生成模型:训练过程中由初始策略的冻结副本担任评分器,评分准则在生成器与验证器之间形成性能差距,从而在没有外部人工监督的情况下实现模型优化。为验证该方法,我们针对机器学习领域的研究目标开展了包含225小时工作量的人类专家评估。专家在70%的研究目标案例中更倾向于选择经微调的Qwen3-30B-A3B模型生成的方案,并对84%的自动提取目标评分准则表示认可。为评估方法的泛化能力,我们将该方法扩展至医学论文及arXiv预印本中的研究目标,并采用前沿模型陪审团进行评估。微调后的模型实现了12-22%的相对性能提升,并展现出显著的跨领域泛化能力,即使在医学研究这类难以获取执行反馈的问题场景中依然有效。这些发现共同证明,这种可扩展的自动化训练方法具有提升通用AI协科学家能力的潜力。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月28日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员