OpenAI“双十二”第2天带来了强化微调RFT (Reinforcement learning Fine-Tuning)。可以看到的几个影响:
1.推理基础模型(LRM,Large Reasoning Model)和领域模型。这是最直接和确定的影响。9月份o1发布后,许多研究通过增加多步推理,将原本使用系统1建模的任务增强,比如系统2翻译、系统2 RAG、系统2对齐、系统2奖励函数建模。然而,推理模型首先要改进的还是传统上就需要系统2能力解决的任务。如同SFT之于语言基础模型,RFT的提出进一步清晰了类o1模型作为推理基础模型的定位:可以通过提供高质量的领域/下游任务数据微调为推理领域模型。
2.模型优势的累积:系统1基础模型à系统2基础模型à系统2领域模型。模型优势带来的滚雪球效应此前已在CLIPàDALL-E/GPT-4àSora中看到了。o1的训练基于GPT-4(o)优秀的指令跟随和长上下文生成能力,其作为策略函数和过程奖励函数初始化的基础,并支撑RL和selfplay过程中的搜索和规划。RFT只需要用户提供{Q,A}训练数据,这就要依赖推理基础模型生成高质量的CoT推理路径,当然这其中可能还需要通用的过程奖励函数。
3.领域CoT数据的合成。除了直接用于提升领域推理任务的性能,不知道OpenAI是否会提供基于领域推理模型来合成领域CoT数据的接口。我们大部分记录下来的数据都是{Q,A}形式的,缺少了中间的推理过程,而这些过程数据对于领域任务尤其重要。如果用RFT得到的领域推理模型来生成领域CoT数据,不仅可以进一步提升领域推理模型的性能,还可以支撑更多复杂的领域应用。 关于RFT实现的技术路线,不确定的几点:
**1.是否使用过程奖励?**RFT只需要用户提供{Q,A}训练数据集和可选的评分器grader,也就说只提供了结果奖励。存在三种可能:(1)只用结果奖励更新策略模型;(2)过程奖励模型足够通用,结合用户提供的结果奖励和固定的过程奖励更新策略模型;(3)更新过程奖励模型,微调过程中同步更新过程奖励和策略模型。
**2.是否合成新的数据进行selfplay?**OpenAI在演示视频中提到只需要用户提供几十条高质量数据。由于没有提到微调需要的时间和算力需求,RFT可能经历了高质量结果奖励à合成推理过程数据à更新策略模型和过程奖励à生成新的推理过程数据/结果奖励à继续更新策略模型和过程奖励的selfplay过程。这一定程度上能解决过程奖励函数泛化的问题,并且有潜力让领域推理性能持续提升。 对于接下来的发布,或者说期待OpenAI在模型方面将带来哪些更新?现在,模型已逐步分为GPT系列语言模型、o1系列LRM推理模型、Sora视觉模型、Agent模型几条技术线。前两天聚焦的是推理模型,对于其他三条线有以下期待:
1. GPT系列:o1系列模型暂时减弱了发布GPT-5的紧迫性,但语言模型作为其他模型的基础能力,以及支撑更广泛的系统1类型任务,openai还是会持续更新的,根据增强的程度,OpenAI可能会给它命名GPT-4.5或者GPT-5.
2.视觉模型:跳票的9个月里已经出现了很多视频生成竞品,大家对Sora发布的呼声是最高的。但更让人期待的不是一个单纯的视频生成产品。这一年,从视频生成到3D生成再到交互式内容生成的发展非常快。不管是Sora发布时自称的”世界模拟器”,还是Sora团队技术负责人在智源大会”语言是视觉的脚手架”的说法,希望这条线上能看到视觉所展现的scaling law或者从视频生成到世界模型的进展。
3. Agent模型:Sam Altman曾经提过“从第二层reasoner到第三层agent”会很快。这次可能不会看到用于device use的Agent模型或具体产品,因为延续OpenAI早期”OpenAI Universe”项目的Operator已宣布要到2025年1月发布。如果观察从AlphaGo到MuZero的发展,Muzero同步学习了用于规划的世界模型和做出决策的策略模型,实现了对Atari这种复杂视频游戏的泛化。Agent要结合推理模型用于解决实际场景,同样要构建环境的世界模型。值得关注的是,OpenAI投资的机器人公司1X在9月o1发布后就发布了世界模型产品。结合Sora和视觉模型线的发展,不知道OpenAI这次会不会带来新的进展。