复杂推理大模型OpenAI o1亮相，数学与代码能力飞跃 - 专知VIP

会员服务 ·

18

OpenAI o1 · 大模型 ·

复杂推理大模型OpenAI o1亮相，数学与代码能力飞跃

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

9月13日，OpenAI正式发布并上线o1系列模型o1-preview和o1-mini。　　平安观点：　　OpenAI计数器重置回1，o1系列开启复杂推理序幕。本次OpenAI发布的是o1-preview（预览版）和o1-mini（擅长STEM、更快、更便宜）两个版本，ChatGPT付费用户和API用户可以使用。根据OpenAI官网介绍，o1系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说，OpenAI认为o1是一个重大进步，代表了AI能力的新水平，鉴于此，OpenAI将计数器重置回1并将此系列模型命名为OpenAI o1。OpenAI研究发现，随着强化学习（训练时计算）和思考时间（测试时计算）的增加，o1的性能会不断提高。因此在体验上，与此前模型不同点在于，OpenAIo1在作出反应之前，需要像人类一样，花更多时间思考问题。　　o1基准表现明显优于GPT-4o，数学与编码能力实现飞跃。OpenAI实验结果表明，在绝大多数推理任务中，o1的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上，o1实现了能力飞跃，1）数学能力：在美国数学奥林匹克(AIME2024)预选赛题目中，GPT-4o平均只能解决12%的问题，o1正式版达到平均74%的准确率，在使用学习评分函数重新排名1000个样本后准确率达到93%，相当于美国排名前500的学生水平。2）编码能力：在竞争性编程问题（Codeforces）比赛中，o1-preview、o1分别超越了62%、89%的人类竞争者，而对比GPT-4o仅超过11%。3）特定专业领域能力：GPQA diamond测试（专门用于评估模型在化学、物理和生物学等领域的专业知识水平）中，o1不仅成功完成了测试，更是超越了人类专家的表现，成为首个在GPQA diamond基准上击败人类专家的AI模型。　　o1引入思维链优化逻辑推理，助力模型性能与安全提升。o1优越能力的背后，核心突破在于运用思维链（chain of thought）方法来处理复杂任务，OpenAI介绍到，类似于人类在回答困难问题之前可能会思考很长时间，o1在尝试解决问题时会使用思维链。通过强化学习，o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误，学会了将棘手的步骤分解为更简单的步骤，学会了在当前方法不起作用时尝试不同的方法，此过程显著提高了模型的推理能力。在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程，o1-preview在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤，最终输出结论。同时，OpenAI认为思维链推理也为大模型安全性的提升提供了新思路，o1-preview在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。

成为VIP会员查看完整内容

24

相关内容

OpenAI o1

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

30+阅读 · 7月4日

AI端侧应用系列报告（二）：苹果手机+Openai

AI端侧应用系列报告（二）：苹果手机+Openai

专知会员服务

22+阅读 · 6月19日

《信息战兵棋推演手册》美智库最新报告

《信息战兵棋推演手册》美智库最新报告

专知会员服务

38+阅读 · 5月19日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

65+阅读 · 3月5日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

63+阅读 · 2月20日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

168+阅读 · 2023年12月7日

GPT-4-Turbo专题：多模态能力提升，应用生态加速

GPT-4-Turbo专题：多模态能力提升，应用生态加速

专知会员服务

70+阅读 · 2023年11月26日

ICLR'24 大语言模型智能体最新研究进展

ICLR'24 大语言模型智能体最新研究进展

专知会员服务

85+阅读 · 2023年10月20日

百川智能发布Baichuan2大模型，附技术报告

百川智能发布Baichuan2大模型，附技术报告

专知会员服务

48+阅读 · 2023年9月17日

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

专知会员服务

134+阅读 · 2023年2月23日

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

量子位

11+阅读 · 2019年9月15日

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

图神经网络(GNN)必读论文及最新进展跟踪

图神经网络(GNN)必读论文及最新进展跟踪

深度学习与NLP

27+阅读 · 2019年6月7日

重磅！商汤开源目标跟踪最强算法SiamRPN系列

重磅！商汤开源目标跟踪最强算法SiamRPN系列

AI前线

13+阅读 · 2019年5月24日

2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐

2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐

深度学习与NLP

42+阅读 · 2019年4月18日

自动驾驶研发成本大变革！Apollo 开发套件解析出炉

自动驾驶研发成本大变革！Apollo 开发套件解析出炉

无人机

10+阅读 · 2019年4月16日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

开源星际争霸2多智能体挑战smac

开源星际争霸2多智能体挑战smac

专知

17+阅读 · 2019年2月13日

语义Web知识库补全关键技术研究

国家自然科学基金

10+阅读 · 2017年12月31日

DMB信号水汽探测方法若干问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

考虑一般约束条件下的消费投资决策模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于群智感知的非约束智能手机室内融合定位方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

10+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

48+阅读 · 2023年4月4日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

ResMLP: Feedforward networks for image classification with data-efficient training

Arxiv

12+阅读 · 2021年5月7日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

10+阅读 · 2019年4月1日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员

相关主题

相关VIP内容

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

30+阅读 · 7月4日

AI端侧应用系列报告（二）：苹果手机+Openai

AI端侧应用系列报告（二）：苹果手机+Openai

专知会员服务

22+阅读 · 6月19日

《信息战兵棋推演手册》美智库最新报告

《信息战兵棋推演手册》美智库最新报告

专知会员服务

38+阅读 · 5月19日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

65+阅读 · 3月5日

文生视频模型Sora面世，AI生视频技术持续革新

文生视频模型Sora面世，AI生视频技术持续革新

专知会员服务

63+阅读 · 2月20日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

168+阅读 · 2023年12月7日

GPT-4-Turbo专题：多模态能力提升，应用生态加速

GPT-4-Turbo专题：多模态能力提升，应用生态加速

专知会员服务

70+阅读 · 2023年11月26日

ICLR'24 大语言模型智能体最新研究进展

ICLR'24 大语言模型智能体最新研究进展

专知会员服务

85+阅读 · 2023年10月20日

百川智能发布Baichuan2大模型，附技术报告

百川智能发布Baichuan2大模型，附技术报告

专知会员服务

48+阅读 · 2023年9月17日

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

【ChatGPT系列报告】ChatGPT不断突破，AI驶入快车道

专知会员服务

134+阅读 · 2023年2月23日

热门VIP内容

相关资讯

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

量子位

11+阅读 · 2019年9月15日

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

与 TensorFlow 功能互补的腾讯 angel 发布 3.0 ：高效处理千亿级别模型

AI科技评论

11+阅读 · 2019年8月28日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

图神经网络(GNN)必读论文及最新进展跟踪

图神经网络(GNN)必读论文及最新进展跟踪

深度学习与NLP

27+阅读 · 2019年6月7日

重磅！商汤开源目标跟踪最强算法SiamRPN系列

重磅！商汤开源目标跟踪最强算法SiamRPN系列

AI前线

13+阅读 · 2019年5月24日

2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐

2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐

深度学习与NLP

42+阅读 · 2019年4月18日

自动驾驶研发成本大变革！Apollo 开发套件解析出炉

自动驾驶研发成本大变革！Apollo 开发套件解析出炉

无人机

10+阅读 · 2019年4月16日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

开源星际争霸2多智能体挑战smac

开源星际争霸2多智能体挑战smac

专知

17+阅读 · 2019年2月13日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

10+阅读 · 2017年12月31日

DMB信号水汽探测方法若干问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

考虑一般约束条件下的消费投资决策模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于群智感知的非约束智能手机室内融合定位方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

10+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

48+阅读 · 2023年4月4日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

ResMLP: Feedforward networks for image classification with data-efficient training

Arxiv

12+阅读 · 2021年5月7日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

10+阅读 · 2019年4月1日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

微信扫码咨询专知VIP会员