Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 2.1% on GSM8k with training just on a lightweight dataset.


翻译:近期,大型语言模型领域通过思维链方法取得了显著进展,在解决复杂问题方面表现出重大改进。然而,现有模型要么因用户偏好倾向于牺牲详细推理以追求简洁,要么需要大量且昂贵的训练数据来学习复杂的推理能力,这限制了它们在解决复杂任务方面的潜力。为弥补这一差距,遵循扩展测试时间的概念,我们提出了一种简单方法,鼓励模型采用更具耐心的推理风格,而无需引入新知识或技能。通过采用偏好优化方法,我们生成详细的推理过程作为正例,生成简单答案作为负例,从而训练模型倾向于给出详尽的回答。我们的结果表明,仅使用轻量级数据集进行训练,模型在GSM8k上的性能提升最高可达2.1%。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
39+阅读 · 2020年6月22日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员