在数学推理任务中有效训练语言模型(LMs)需要高质量的有监督微调数据。除了从人类专家那里获得注释,常见的替代方法是从更大且更强大的语言模型中采样。然而,这种知识蒸馏方法可能成本高昂且不稳定,特别是依赖于如GPT-4(OpenAI, 2023)这样封闭源码的专有模型时,其行为往往不可预测。在这项工作中,我们展示了小规模语言模型的推理能力可以通过自训练得到增强,自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化(Direct Preference Optimization, DPO)的方法进一步增强。通过将DPO整合到自训练中,我们利用偏好数据引导语言模型朝着更准确和多样化的链式思维推理发展。我们在各种数学推理任务中使用不同的基础模型评估了我们的方法。实验结果表明,与依赖大型专有模型相比,这种方法不仅提高了语言模型的推理性能,还提供了一种更具成本效益和可扩展的解决方案。

成为VIP会员查看完整内容
27

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
24+阅读 · 2022年2月22日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
24+阅读 · 2022年2月22日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
26+阅读 · 2019年3月5日
微信扫码咨询专知VIP会员