《OpenAI o1大模型》中英文技术报告，44页pdf - 专知VIP

会员服务 ·

88

OpenAI o1 · 大模型 · 强化学习 ·

2024 年 9 月 15 日

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

北京时间 9 月 13 日午夜，OpenAI 发布 o1 系列模型，旨在专门解决难题。OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。

技术原理：

大规模强化学习算法 OpenAI 使用了一种大规模的强化学习算法，来训练 o1-preview 模型。该算法通过高效的数据训练，让模型学会如何利用“思维链”（Chain of Thought）来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链，最终提升解决问题的能力。 OpenAI 发现，o1 模型的性能会随着强化学习时间（训练时计算量）和推理时间（测试时计算量）的增加而显著提高。这种基于推理的训练方式与传统的大规模语言模型（LLM）预训练方式不同，具有独特的扩展性优势。

o1 性能在训练时间和测试时间的计算中都平稳提升思维链（Chain of Thought） o1-preview 模型通过思维链推理显著增强了其在复杂推理任务中的能力。思维链的基本理念类似于人类思考困难问题的过程：逐步分解问题、尝试不同策略并纠正错误。通过强化学习训练，o1-preview 能够在回答问题前进行深入思考，逐步细化步骤。这种推理方式大幅提升了 o1-preview 在复杂任务中的表现。例如，o1-preview 能够通过思维链识别问题中的关键步骤并逐步解决。这种推理模式特别适用于需要多步骤推理的任务，如复杂的数学问题或高难度编程任务。举例说明： * 在某些复杂问题上，o1-preview 能够逐步打破问题的难点，最终找到正确解答。这与人类面对挑战性问题时逐步分析的思维方式非常相似。

中文版：

成为VIP会员查看完整内容

相关内容

OpenAI o1

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

22+阅读 · 2024年8月22日

《Llama 3大模型》技术报告中英文版，95页pdf

《Llama 3大模型》技术报告中英文版，95页pdf

专知会员服务

106+阅读 · 2024年8月2日

高性能Python（第3版），257页pdf

高性能Python（第3版），257页pdf

专知会员服务

57+阅读 · 2024年8月1日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

72+阅读 · 2024年3月5日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

160+阅读 · 2024年2月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

49+阅读 · 2023年9月13日

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

专知会员服务

125+阅读 · 2023年8月1日

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

专知会员服务

216+阅读 · 2023年3月20日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

65+阅读 · 2020年5月15日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

19+阅读 · 2022年8月31日

【Manning2022新书】Python与PySpark的数据分析，458页pdf

【Manning2022新书】Python与PySpark的数据分析，458页pdf

专知

17+阅读 · 2022年3月21日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

26+阅读 · 2019年2月9日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

SSD多盒实时目标检测教程

SSD多盒实时目标检测教程

论智

13+阅读 · 2018年4月5日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

BlockFound: Customized blockchain foundation model for anomaly detection

Arxiv

0+阅读 · 2024年10月5日

Linear combinations of Gaussian latents in generative models: interpolation and beyond

Arxiv

0+阅读 · 2024年10月4日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

22+阅读 · 2024年8月22日

《Llama 3大模型》技术报告中英文版，95页pdf

《Llama 3大模型》技术报告中英文版，95页pdf

专知会员服务

106+阅读 · 2024年8月2日

高性能Python（第3版），257页pdf

高性能Python（第3版），257页pdf

专知会员服务

57+阅读 · 2024年8月1日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

72+阅读 · 2024年3月5日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

160+阅读 · 2024年2月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

联合国教科文组织发布《生成式AI与教育未来》应用指南，48页pdf

专知会员服务

49+阅读 · 2023年9月13日

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

麦肯锡《生成式AI：CEO必读指南》中文版附下载，15页pdf

专知会员服务

125+阅读 · 2023年8月1日

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

【ChatGPT系列报告】ChatGPT：技术原理、演进路线和应用场景，21页pdf

专知会员服务

216+阅读 · 2023年3月20日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

65+阅读 · 2020年5月15日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

19+阅读 · 2022年8月31日

【Manning2022新书】Python与PySpark的数据分析，458页pdf

【Manning2022新书】Python与PySpark的数据分析，458页pdf

专知

17+阅读 · 2022年3月21日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

人工智能学家

26+阅读 · 2019年2月9日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

专知

19+阅读 · 2018年12月4日

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

ECCV2018教程146页《对抗机器学习》PPT教程（附PPT下载）

专知

21+阅读 · 2018年9月7日

SSD多盒实时目标检测教程

SSD多盒实时目标检测教程

论智

13+阅读 · 2018年4月5日

相关基金

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

结构入水空泡流动的高精度SPH模拟研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

相关论文

BlockFound: Customized blockchain foundation model for anomaly detection

Arxiv

0+阅读 · 2024年10月5日

Linear combinations of Gaussian latents in generative models: interpolation and beyond

Arxiv

0+阅读 · 2024年10月4日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员