OpenAI“双十二”第2天带来了强化微调RFT (Reinforcement learning Fine-Tuning)。可以看到的几个影响:

1.推理基础模型(LRM,Large Reasoning Model)和领域模型。这是最直接和确定的影响。9月份o1发布后,许多研究通过增加多步推理,将原本使用系统1建模的任务增强,比如系统2翻译、系统2 RAG、系统2对齐、系统2奖励函数建模。然而,推理模型首先要改进的还是传统上就需要系统2能力解决的任务。如同SFT之于语言基础模型,RFT的提出进一步清晰了类o1模型作为推理基础模型的定位:可以通过提供高质量的领域/下游任务数据微调为推理领域模型。

2.模型优势的累积:系统1基础模型à系统2基础模型à系统2领域模型。模型优势带来的滚雪球效应此前已在CLIPàDALL-E/GPT-4àSora中看到了。o1的训练基于GPT-4(o)优秀的指令跟随和长上下文生成能力,其作为策略函数和过程奖励函数初始化的基础,并支撑RL和selfplay过程中的搜索和规划。RFT只需要用户提供{Q,A}训练数据,这就要依赖推理基础模型生成高质量的CoT推理路径,当然这其中可能还需要通用的过程奖励函数。

3.领域CoT数据的合成。除了直接用于提升领域推理任务的性能,不知道OpenAI是否会提供基于领域推理模型来合成领域CoT数据的接口。我们大部分记录下来的数据都是{Q,A}形式的,缺少了中间的推理过程,而这些过程数据对于领域任务尤其重要。如果用RFT得到的领域推理模型来生成领域CoT数据,不仅可以进一步提升领域推理模型的性能,还可以支撑更多复杂的领域应用。 关于RFT实现的技术路线,不确定的几点:

**1.是否使用过程奖励?**RFT只需要用户提供{Q,A}训练数据集和可选的评分器grader,也就说只提供了结果奖励。存在三种可能:(1)只用结果奖励更新策略模型;(2)过程奖励模型足够通用,结合用户提供的结果奖励和固定的过程奖励更新策略模型;(3)更新过程奖励模型,微调过程中同步更新过程奖励和策略模型。

**2.是否合成新的数据进行selfplay?**OpenAI在演示视频中提到只需要用户提供几十条高质量数据。由于没有提到微调需要的时间和算力需求,RFT可能经历了高质量结果奖励à合成推理过程数据à更新策略模型和过程奖励à生成新的推理过程数据/结果奖励à继续更新策略模型和过程奖励的selfplay过程。这一定程度上能解决过程奖励函数泛化的问题,并且有潜力让领域推理性能持续提升。 对于接下来的发布,或者说期待OpenAI在模型方面将带来哪些更新?现在,模型已逐步分为GPT系列语言模型、o1系列LRM推理模型、Sora视觉模型、Agent模型几条技术线。前两天聚焦的是推理模型,对于其他三条线有以下期待:

1. GPT系列:o1系列模型暂时减弱了发布GPT-5的紧迫性,但语言模型作为其他模型的基础能力,以及支撑更广泛的系统1类型任务,openai还是会持续更新的,根据增强的程度,OpenAI可能会给它命名GPT-4.5或者GPT-5.

2.视觉模型:跳票的9个月里已经出现了很多视频生成竞品,大家对Sora发布的呼声是最高的。但更让人期待的不是一个单纯的视频生成产品。这一年,从视频生成到3D生成再到交互式内容生成的发展非常快。不管是Sora发布时自称的”世界模拟器”,还是Sora团队技术负责人在智源大会”语言是视觉的脚手架”的说法,希望这条线上能看到视觉所展现的scaling law或者从视频生成到世界模型的进展。

3. Agent模型:Sam Altman曾经提过“从第二层reasoner到第三层agent”会很快。这次可能不会看到用于device use的Agent模型或具体产品,因为延续OpenAI早期”OpenAI Universe”项目的Operator已宣布要到2025年1月发布。如果观察从AlphaGo到MuZero的发展,Muzero同步学习了用于规划的世界模型和做出决策的策略模型,实现了对Atari这种复杂视频游戏的泛化。Agent要结合推理模型用于解决实际场景,同样要构建环境的世界模型。值得关注的是,OpenAI投资的机器人公司1X在9月o1发布后就发布了世界模型产品。结合Sora和视觉模型线的发展,不知道OpenAI这次会不会带来新的进展。

成为VIP会员查看完整内容
21

相关内容

统一的多模态文字理解与生成大模型
专知会员服务
28+阅读 · 10月11日
【ICML2024】多元化对齐路线图
专知会员服务
20+阅读 · 5月2日
【干货书】算法,Algorithms,314页pdf
专知会员服务
82+阅读 · 2022年8月20日
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
专知会员服务
44+阅读 · 2021年8月6日
【DeepMind】多模态预训练模型概述,37页ppt
专知会员服务
93+阅读 · 2021年7月2日
Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
35+阅读 · 2020年11月29日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月17日
VIP会员
相关VIP内容
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员