北京时间 9 月 13 日午夜,OpenAI 发布 o1 系列模型,旨在专门解决难题。OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。

技术原理:

大规模强化学习算法 OpenAI 使用了一种大规模的强化学习算法,来训练 o1-preview 模型。该算法通过高效的数据训练,让模型学会如何利用“思维链”(Chain of Thought)来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链,最终提升解决问题的能力。 OpenAI 发现,o1 模型的性能会随着强化学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。这种基于推理的训练方式与传统的大规模语言模型(LLM)预训练方式不同,具有独特的扩展性优势。

o1 性能在训练时间和测试时间的计算中都平稳提升思维链(Chain of Thought) o1-preview 模型通过 思维链推理 显著增强了其在复杂推理任务中的能力。思维链的基本理念类似于人类思考困难问题的过程:逐步分解问题、尝试不同策略并纠正错误。通过强化学习训练,o1-preview 能够在回答问题前进行深入思考,逐步细化步骤。 这种推理方式大幅提升了 o1-preview 在复杂任务中的表现。例如,o1-preview 能够通过思维链识别问题中的关键步骤并逐步解决。这种推理模式特别适用于需要多步骤推理的任务,如复杂的数学问题或高难度编程任务。 举例说明: * 在某些复杂问题上,o1-preview 能够逐步打破问题的难点,最终找到正确解答。这与人类面对挑战性问题时逐步分析的思维方式非常相似。

中文版

成为VIP会员查看完整内容
103

相关内容

《Llama 3大模型》技术报告中英文版,95页pdf
专知会员服务
92+阅读 · 8月2日
高性能Python(第3版),257页pdf
专知会员服务
52+阅读 · 8月1日
Sora技术深度解析,21页pdf
专知会员服务
154+阅读 · 2月26日
麦肯锡《生成式AI:CEO必读指南》中文版附下载,15页pdf
专知会员服务
122+阅读 · 2023年8月1日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
62+阅读 · 2020年5月15日
【2022新书】Python数据分析第三版,579页pdf
专知
19+阅读 · 2022年8月31日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员