【ACL2024】通过直接偏好优化的自训练提升链式思维推理

在数学推理任务中有效训练语言模型（LMs）需要高质量的有监督微调数据。除了从人类专家那里获得注释，常见的替代方法是从更大且更强大的语言模型中采样。然而，这种知识蒸馏方法可能成本高昂且不稳定，特别是依赖于如GPT-4（OpenAI, 2023）这样封闭源码的专有模型时，其行为往往不可预测。在这项工作中，我们展示了小规模语言模型的推理能力可以通过自训练得到增强，自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化（Direct Preference Optimization, DPO）的方法进一步增强。通过将DPO整合到自训练中，我们利用偏好数据引导语言模型朝着更准确和多样化的链式思维推理发展。我们在各种数学推理任务中使用不同的基础模型评估了我们的方法。实验结果表明，与依赖大型专有模型相比，这种方法不仅提高了语言模型的推理性能，还提供了一种更具成本效益和可扩展的解决方案。

成为VIP会员查看完整内容

相关内容

ACL 2024

关注 1

【SIGIR2024】对比然后记忆：语义邻居检索增强的归纳多模态知识图谱补全

专知会员服务

23+阅读 · 2024年7月7日

【WWW2024】使用自反射大型语言模型学习生成可解释的股票预测

专知会员服务

26+阅读 · 2024年2月11日

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【AAAI2022】多任务推荐中的跨任务知识提炼

专知会员服务

25+阅读 · 2022年2月22日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题

专知会员服务

23+阅读 · 2020年11月13日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Recent advances in deep learning theory

Arxiv

50+阅读 · 2020年12月20日

A survey on deep hashing for image retrieval

Arxiv

15+阅读 · 2020年6月10日

Heterogeneous Deep Graph Infomax

Arxiv

12+阅读 · 2019年11月19日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日