我们介绍了rStar-Math,旨在展示小型语言模型(SLMs)能够与OpenAI的o1模型竞争,甚至超越其数学推理能力,且无需通过优越模型进行蒸馏。rStar-Math通过运用“深度思维”结合蒙特卡罗树搜索(MCTS)实现这一目标,其中数学策略SLM在测试时通过基于SLM的过程奖励模型进行搜索指导。rStar-Math提出了三项创新,以解决训练这两个SLM面临的挑战: 1. 一种新颖的代码增强链式思维(CoT)数据合成方法,该方法通过广泛的MCTS展开生成逐步验证的推理轨迹,用于训练策略SLM; 1. 一种新型的过程奖励模型训练方法,避免了简单的逐步评分注释,从而生成更有效的过程偏好模型(PPM); 1. 一种自我进化的策略,其中策略SLM和PPM从零开始构建,并通过迭代演化来提升推理能力。

通过4轮自我进化,结合数百万个合成解决方案解决747k个数学问题,rStar-Math将SLM的数学推理能力提升至最先进的水平。在MATH基准测试中,rStar-Math将Qwen2.5-Math-7B的得分从58.8%提高至90.0%,将Phi3-mini-3.8B的得分从41.4%提高至86.4%,分别超越o1-preview +4.5%和+0.9%。在美国数学奥林匹克(AIME)中,rStar-Math平均解决了53.3%(8/15)的问题,排名位于最优秀的20%高中数学学生之中。 代码和数据将在https://github.com/microsoft/rStar提供。

成为VIP会员查看完整内容
20

相关内容

【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
55+阅读 · 2024年9月7日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
23+阅读 · 2022年5月4日
教程 | 从头开始了解PyTorch的简单实现
机器之心
20+阅读 · 2018年4月11日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员