Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.


翻译:利用长思维链的推理模型需要运用多种认知技能,例如答案验证、回溯、通过替代方法重试等。先前研究表明,当基础语言模型展现出这些技能时,通过强化学习(RL)进一步训练该模型可以学会有效运用这些技能。那么,如何让模型掌握基础模型不具备的技能?本研究提出的SkillFactory方法,是一种在强化学习前的监督微调(SFT)阶段使模型初步学习这些技能的微调方法。该方法不依赖于从更强模型的蒸馏,而是利用模型自身生成的样本,通过重新组织构建符合技能训练格式的数据。这些“银标”SFT轨迹可能并不完美,但能有效为模型在强化学习阶段掌握技能奠定基础。评估结果表明:(1)从SkillFactory的SFT初始化开始,有助于模型在强化学习后泛化至任务的更难变体,尽管强化学习前性能较低;(2)模型确实使用了认知技能;(3)经过强化学习的SkillFactory模型相比强化学习的基础模型,在域外任务上表现出更强的抗退化鲁棒性。本研究说明,强化学习前习得的归纳偏置有助于模型学习稳健的认知技能运用。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员