《OpenAI o1大模型》中英文技术报告，44页pdf - 专知VIP

会员服务 ·

40

OpenAI o1 · 大模型 · 强化学习 ·

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

北京时间 9 月 13 日午夜，OpenAI 发布 o1 系列模型，旨在专门解决难题。OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。

技术原理：

大规模强化学习算法 OpenAI 使用了一种大规模的强化学习算法，来训练 o1-preview 模型。该算法通过高效的数据训练，让模型学会如何利用“思维链”（Chain of Thought）来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链，最终提升解决问题的能力。 OpenAI 发现，o1 模型的性能会随着强化学习时间（训练时计算量）和推理时间（测试时计算量）的增加而显著提高。这种基于推理的训练方式与传统的大规模语言模型（LLM）预训练方式不同，具有独特的扩展性优势。

o1 性能在训练时间和测试时间的计算中都平稳提升思维链（Chain of Thought） o1-preview 模型通过思维链推理显著增强了其在复杂推理任务中的能力。思维链的基本理念类似于人类思考困难问题的过程：逐步分解问题、尝试不同策略并纠正错误。通过强化学习训练，o1-preview 能够在回答问题前进行深入思考，逐步细化步骤。这种推理方式大幅提升了 o1-preview 在复杂任务中的表现。例如，o1-preview 能够通过思维链识别问题中的关键步骤并逐步解决。这种推理模式特别适用于需要多步骤推理的任务，如复杂的数学问题或高难度编程任务。举例说明： * 在某些复杂问题上，o1-preview 能够逐步打破问题的难点，最终找到正确解答。这与人类面对挑战性问题时逐步分析的思维方式非常相似。

中文版：

成为VIP会员查看完整内容

57

相关内容

OpenAI o1

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

20+阅读 · 8月22日

《Llama 3大模型》技术报告中英文版，95页pdf

《Llama 3大模型》技术报告中英文版，95页pdf

专知会员服务

86+阅读 · 8月2日

高性能Python（第3版），257页pdf

高性能Python（第3版），257页pdf

专知会员服务

45+阅读 · 8月1日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

65+阅读 · 3月5日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

153+阅读 · 2月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

168+阅读 · 2023年12月7日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

44+阅读 · 2023年9月13日

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

专知会员服务

121+阅读 · 2023年8月1日

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

专知会员服务

212+阅读 · 2023年3月20日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

62+阅读 · 2020年5月15日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

14+阅读 · 2022年11月24日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

17+阅读 · 2022年8月31日

【Manning2022新书】Python与PySpark的数据分析，458页pdf

【Manning2022新书】Python与PySpark的数据分析，458页pdf

专知

17+阅读 · 2022年3月21日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

24+阅读 · 2019年2月9日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

20+阅读 · 2018年9月7日

SSD多盒实时目标检测教程

SSD多盒实时目标检测教程

论智

13+阅读 · 2018年4月5日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

13+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

14+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

148+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

165+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

67+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

376+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

111+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

57+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

133+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

72+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

20+阅读 · 8月22日

《Llama 3大模型》技术报告中英文版，95页pdf

《Llama 3大模型》技术报告中英文版，95页pdf

专知会员服务

86+阅读 · 8月2日

高性能Python（第3版），257页pdf

高性能Python（第3版），257页pdf

专知会员服务

45+阅读 · 8月1日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

65+阅读 · 3月5日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

153+阅读 · 2月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

168+阅读 · 2023年12月7日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

44+阅读 · 2023年9月13日

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

专知会员服务

121+阅读 · 2023年8月1日

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

专知会员服务

212+阅读 · 2023年3月20日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

62+阅读 · 2020年5月15日

热门VIP内容

相关资讯

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

14+阅读 · 2022年11月24日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

17+阅读 · 2022年8月31日

【Manning2022新书】Python与PySpark的数据分析，458页pdf

【Manning2022新书】Python与PySpark的数据分析，458页pdf

专知

17+阅读 · 2022年3月21日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

24+阅读 · 2019年2月9日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

20+阅读 · 2018年9月7日

SSD多盒实时目标检测教程

SSD多盒实时目标检测教程

论智

13+阅读 · 2018年4月5日

相关基金

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

13+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

14+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

148+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

165+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

67+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

376+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

111+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

57+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

133+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

72+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员