大型语言模型(LLMs)在数学推理方面展现出强大潜力,然而其效果常受限于高质量问题数量不足。为克服这一限制,研究者尝试通过自生成数据扩大计算响应规模,但现有方法在推理各阶段的探索效率较低,容易引入虚假的相关性数据,导致性能受限。为解决这一挑战,我们提出 MARGE(Improving Math Reasoning with Guided Exploration),这是一种通过命中引导探索(hit-guided exploration)提升数学推理能力的新方法。

MARGE系统性地探索由模型自生成解答中提取的中间推理状态,实现充分的推理空间探索,并在整个过程中改进归因机制。我们在多个主干模型与标准基准测试上的广泛实验表明,MARGE在不依赖外部标注或额外训练价值模型的前提下,显著提升了模型的推理能力。值得一提的是,MARGE同时提升了单轮推理准确率与探索多样性,有效缓解了现有对齐方法中常见的性能权衡问题。 实验结果表明,MARGE在增强数学推理能力、释放自生成训练数据的潜力方面具有显著效果。我们的代码与模型已开放获取,详见下方链接。

成为VIP会员查看完整内容
1

相关内容

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作
专知会员服务
20+阅读 · 2024年10月1日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
30+阅读 · 2022年3月28日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员