成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
12
ACL 2024
·
直接偏好优化(DPO)
·
大型语言模型
·
思维推理
·
8 月 3 日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
专知会员服务
专知,提供专业可信的知识分发服务,让认知协作更快更好!
在数学推理任务中有效训练语言模型(LMs)需要高质量的有监督微调数据。除了从人类专家那里获得注释,常见的替代方法是从更大且更强大的语言模型中采样。然而,这种知识蒸馏方法可能成本高昂且不稳定,特别是依赖于如GPT-4(OpenAI, 2023)这样封闭源码的专有模型时,其行为往往不可预测。在这项工作中,我们展示了小规模语言模型的推理能力可以通过自训练得到增强,自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化(Direct Preference Optimization, DPO)的方法进一步增强。通过将DPO整合到自训练中,我们利用偏好数据引导语言模型朝着更准确和多样化的链式思维推理发展。我们在各种数学推理任务中使用不同的基础模型评估了我们的方法。实验结果表明,与依赖大型专有模型相比,这种方法不仅提高了语言模型的推理性能,还提供了一种更具成本效益和可扩展的解决方案。
成为VIP会员查看完整内容
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
点赞并收藏
12
暂时没有读者
27
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
ACL 2024
关注
1
【SIGIR2024】对比然后记忆:语义邻居检索增强的归纳多模态知识图谱补全
专知会员服务
22+阅读 · 7月7日
【WWW2024】使用自反射大型语言模型学习生成可解释的股票预测
专知会员服务
23+阅读 · 2月11日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成
专知会员服务
61+阅读 · 2023年10月14日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
24+阅读 · 2022年2月22日
【ACMMM2021】密集对比视觉语言预训练
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题
专知会员服务
22+阅读 · 2020年11月13日
图上如何建模因果性?PSU等最新《图反事实学习》综述,50页pdf全面综述图公平性、可解释性等方法
专知
48+阅读 · 2023年4月13日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知
26+阅读 · 2021年1月25日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
专知
15+阅读 · 2020年12月9日
【商汤科技】可变形Transformers端到端对象检测,Deformable DETR
专知
18+阅读 · 2020年10月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知
10+阅读 · 2020年4月20日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知
11+阅读 · 2020年3月31日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知
19+阅读 · 2020年2月27日
【Google AI新论文】REALM:检索增强语言模型预训练,QA的SOTA提升4-16%准确性
专知
12+阅读 · 2020年2月12日
北邮张庆恒:如何基于 rasa 搭建一个中文对话系统 (有源码视频)| 分享总结
AI研习社
24+阅读 · 2018年1月31日
语义Web知识库补全关键技术研究
国家自然科学基金
12+阅读 · 2017年12月31日
直接优化半周长线长的VLSI两阶段迭代布局算法研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于对称识别方法的贝叶斯probit模型稳健性研究
国家自然科学基金
3+阅读 · 2015年12月31日
基于多样化查询的多标记主动学习研究
国家自然科学基金
0+阅读 · 2015年12月31日
模糊认知集群优化的聚类算法
国家自然科学基金
7+阅读 · 2015年12月31日
面向大数据的安全迁移学习方法
国家自然科学基金
27+阅读 · 2015年12月31日
基于决策模型和预备电位的运动想象BCI研究
国家自然科学基金
2+阅读 · 2015年12月31日
海量Web用户生成内容物化关键技术
国家自然科学基金
1+阅读 · 2014年12月31日
复杂数据下含指标项半参数模型结构的统计推断及应用
国家自然科学基金
0+阅读 · 2014年12月31日
高维复杂结构数据降维
国家自然科学基金
10+阅读 · 2014年12月31日
Is ChatGPT a Good Recommender? A Preliminary Study
Arxiv
159+阅读 · 2023年4月20日
A Comprehensive Survey on Deep Graph Representation Learning
Arxiv
91+阅读 · 2023年4月11日
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review
Arxiv
183+阅读 · 2023年4月7日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Geometric multimodal representation learning
Arxiv
68+阅读 · 2022年9月7日
Deep learning: a statistical viewpoint
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
How to train your MAML
Arxiv
26+阅读 · 2019年3月5日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
ACL 2024
直接偏好优化(DPO)
大型语言模型
思维推理
相关VIP内容
【SIGIR2024】对比然后记忆:语义邻居检索增强的归纳多模态知识图谱补全
专知会员服务
22+阅读 · 7月7日
【WWW2024】使用自反射大型语言模型学习生成可解释的股票预测
专知会员服务
23+阅读 · 2月11日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成
专知会员服务
61+阅读 · 2023年10月14日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
24+阅读 · 2022年2月22日
【ACMMM2021】密集对比视觉语言预训练
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
38+阅读 · 2021年5月16日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
61+阅读 · 2021年4月21日
【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题
专知会员服务
22+阅读 · 2020年11月13日
热门VIP内容
开通专知VIP会员 享更多权益服务
《用于区域覆盖任务的非对称“珍珠链”公共重复地面轨道卫星星座的设计与分析》192页论文
《推动定位、导航和授时合作:扩散型作战人员太空架构(PWSA)》2024最新27页slides
网络中心战:海战变革
《保护关键任务职能,实现可信系统和网络》美国防部最新指令
相关资讯
图上如何建模因果性?PSU等最新《图反事实学习》综述,50页pdf全面综述图公平性、可解释性等方法
专知
48+阅读 · 2023年4月13日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知
26+阅读 · 2021年1月25日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
专知
15+阅读 · 2020年12月9日
【商汤科技】可变形Transformers端到端对象检测,Deformable DETR
专知
18+阅读 · 2020年10月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知
10+阅读 · 2020年4月20日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知
11+阅读 · 2020年3月31日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知
19+阅读 · 2020年2月27日
【Google AI新论文】REALM:检索增强语言模型预训练,QA的SOTA提升4-16%准确性
专知
12+阅读 · 2020年2月12日
北邮张庆恒:如何基于 rasa 搭建一个中文对话系统 (有源码视频)| 分享总结
AI研习社
24+阅读 · 2018年1月31日
相关基金
语义Web知识库补全关键技术研究
国家自然科学基金
12+阅读 · 2017年12月31日
直接优化半周长线长的VLSI两阶段迭代布局算法研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于对称识别方法的贝叶斯probit模型稳健性研究
国家自然科学基金
3+阅读 · 2015年12月31日
基于多样化查询的多标记主动学习研究
国家自然科学基金
0+阅读 · 2015年12月31日
模糊认知集群优化的聚类算法
国家自然科学基金
7+阅读 · 2015年12月31日
面向大数据的安全迁移学习方法
国家自然科学基金
27+阅读 · 2015年12月31日
基于决策模型和预备电位的运动想象BCI研究
国家自然科学基金
2+阅读 · 2015年12月31日
海量Web用户生成内容物化关键技术
国家自然科学基金
1+阅读 · 2014年12月31日
复杂数据下含指标项半参数模型结构的统计推断及应用
国家自然科学基金
0+阅读 · 2014年12月31日
高维复杂结构数据降维
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Is ChatGPT a Good Recommender? A Preliminary Study
Arxiv
159+阅读 · 2023年4月20日
A Comprehensive Survey on Deep Graph Representation Learning
Arxiv
91+阅读 · 2023年4月11日
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review
Arxiv
183+阅读 · 2023年4月7日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Geometric multimodal representation learning
Arxiv
68+阅读 · 2022年9月7日
Deep learning: a statistical viewpoint
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
How to train your MAML
Arxiv
26+阅读 · 2019年3月5日
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top