从监督微调SFT到强化微调RFT，逐渐补齐推理模型的技术拼图

OpenAI“双十二”第2天带来了强化微调RFT (Reinforcement learning Fine-Tuning)。可以看到的几个影响：

1.推理基础模型(LRM，Large Reasoning Model)和领域模型。这是最直接和确定的影响。9月份o1发布后，许多研究通过增加多步推理，将原本使用系统1建模的任务增强，比如系统2翻译、系统2 RAG、系统2对齐、系统2奖励函数建模。然而，推理模型首先要改进的还是传统上就需要系统2能力解决的任务。如同SFT之于语言基础模型，RFT的提出进一步清晰了类o1模型作为推理基础模型的定位：可以通过提供高质量的领域/下游任务数据微调为推理领域模型。

2.模型优势的累积：系统1基础模型à系统2基础模型à系统2领域模型。模型优势带来的滚雪球效应此前已在CLIPàDALL-E/GPT-4àSora中看到了。o1的训练基于GPT-4(o)优秀的指令跟随和长上下文生成能力，其作为策略函数和过程奖励函数初始化的基础，并支撑RL和selfplay过程中的搜索和规划。RFT只需要用户提供{Q,A}训练数据，这就要依赖推理基础模型生成高质量的CoT推理路径，当然这其中可能还需要通用的过程奖励函数。

3.领域CoT数据的合成。除了直接用于提升领域推理任务的性能，不知道OpenAI是否会提供基于领域推理模型来合成领域CoT数据的接口。我们大部分记录下来的数据都是{Q,A}形式的，缺少了中间的推理过程，而这些过程数据对于领域任务尤其重要。如果用RFT得到的领域推理模型来生成领域CoT数据，不仅可以进一步提升领域推理模型的性能，还可以支撑更多复杂的领域应用。关于RFT实现的技术路线，不确定的几点：

**1.是否使用过程奖励？**RFT只需要用户提供{Q,A}训练数据集和可选的评分器grader，也就说只提供了结果奖励。存在三种可能：（1）只用结果奖励更新策略模型；（2）过程奖励模型足够通用，结合用户提供的结果奖励和固定的过程奖励更新策略模型；（3）更新过程奖励模型，微调过程中同步更新过程奖励和策略模型。

**2.是否合成新的数据进行selfplay？**OpenAI在演示视频中提到只需要用户提供几十条高质量数据。由于没有提到微调需要的时间和算力需求，RFT可能经历了高质量结果奖励à合成推理过程数据à更新策略模型和过程奖励à生成新的推理过程数据/结果奖励à继续更新策略模型和过程奖励的selfplay过程。这一定程度上能解决过程奖励函数泛化的问题，并且有潜力让领域推理性能持续提升。对于接下来的发布，或者说期待OpenAI在模型方面将带来哪些更新？现在，模型已逐步分为GPT系列语言模型、o1系列LRM推理模型、Sora视觉模型、Agent模型几条技术线。前两天聚焦的是推理模型，对于其他三条线有以下期待：

1. GPT系列：o1系列模型暂时减弱了发布GPT-5的紧迫性，但语言模型作为其他模型的基础能力，以及支撑更广泛的系统1类型任务，openai还是会持续更新的，根据增强的程度，OpenAI可能会给它命名GPT-4.5或者GPT-5.

2.视觉模型：跳票的9个月里已经出现了很多视频生成竞品，大家对Sora发布的呼声是最高的。但更让人期待的不是一个单纯的视频生成产品。这一年，从视频生成到3D生成再到交互式内容生成的发展非常快。不管是Sora发布时自称的”世界模拟器”，还是Sora团队技术负责人在智源大会”语言是视觉的脚手架”的说法，希望这条线上能看到视觉所展现的scaling law或者从视频生成到世界模型的进展。

3. Agent模型：Sam Altman曾经提过“从第二层reasoner到第三层agent”会很快。这次可能不会看到用于device use的Agent模型或具体产品，因为延续OpenAI早期”OpenAI Universe”项目的Operator已宣布要到2025年1月发布。如果观察从AlphaGo到MuZero的发展，Muzero同步学习了用于规划的世界模型和做出决策的策略模型，实现了对Atari这种复杂视频游戏的泛化。Agent要结合推理模型用于解决实际场景，同样要构建环境的世界模型。值得关注的是，OpenAI投资的机器人公司1X在9月o1发布后就发布了世界模型产品。结合Sora和视觉模型线的发展，不知道OpenAI这次会不会带来新的进展。