9月13日,OpenAI正式发布并上线o1系列模型o1-preview和o1-mini。  平安观点:  OpenAI计数器重置回1,o1系列开启复杂推理序幕。本次OpenAI发布的是o1-preview(预览版)和o1-mini(擅长STEM、更快、更便宜)两个版本,ChatGPT付费用户和API用户可以使用。根据OpenAI官网介绍,o1系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI认为o1是一个重大进步,代表了AI能力的新水平,鉴于此,OpenAI将计数器重置回1并将此系列模型命名为OpenAI o1。OpenAI研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAIo1在作出反应之前,需要像人类一样,花更多时间思考问题。  o1基准表现明显优于GPT-4o,数学与编码能力实现飞跃。OpenAI实验结果表明,在绝大多数推理任务中,o1的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上,o1实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o平均只能解决12%的问题,o1正式版达到平均74%的准确率,在使用学习评分函数重新排名1000个样本后准确率达到93%,相当于美国排名前500的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1分别超越了62%、89%的人类竞争者,而对比GPT-4o仅超过11%。3)特定专业领域能力:GPQA diamond测试(专门用于评估模型在化学、物理和生物学等领域的专业知识水平)中,o1不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQA diamond基准上击败人类专家的AI模型。  o1引入思维链优化逻辑推理,助力模型性能与安全提升。o1优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务,OpenAI介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程,o1-preview在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。

成为VIP会员查看完整内容
24

相关内容

AI大模型赋能手机终端,拥抱AI手机新机遇
专知会员服务
30+阅读 · 7月4日
AI端侧应用系列报告(二):苹果手机+Openai
专知会员服务
22+阅读 · 6月19日
《信息战兵棋推演手册》美智库最新报告
专知会员服务
38+阅读 · 5月19日
文生视频模型Sora面世,AI生视频技术持续革新
专知会员服务
63+阅读 · 2月20日
GPT-4-Turbo专题:多模态能力提升,应用生态加速
专知会员服务
70+阅读 · 2023年11月26日
ICLR'24 大语言模型智能体最新研究进展
专知会员服务
85+阅读 · 2023年10月20日
百川智能发布Baichuan2大模型,附技术报告
专知会员服务
48+阅读 · 2023年9月17日
【ChatGPT系列报告】ChatGPT不断突破,AI驶入快车道
专知会员服务
134+阅读 · 2023年2月23日
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
量子位
11+阅读 · 2019年9月15日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
图神经网络(GNN)必读论文及最新进展跟踪
深度学习与NLP
27+阅读 · 2019年6月7日
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐
深度学习与NLP
42+阅读 · 2019年4月18日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
开源星际争霸2多智能体挑战smac
专知
17+阅读 · 2019年2月13日
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
11+阅读 · 2022年9月1日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
26+阅读 · 2020年2月21日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
AI大模型赋能手机终端,拥抱AI手机新机遇
专知会员服务
30+阅读 · 7月4日
AI端侧应用系列报告(二):苹果手机+Openai
专知会员服务
22+阅读 · 6月19日
《信息战兵棋推演手册》美智库最新报告
专知会员服务
38+阅读 · 5月19日
文生视频模型Sora面世,AI生视频技术持续革新
专知会员服务
63+阅读 · 2月20日
GPT-4-Turbo专题:多模态能力提升,应用生态加速
专知会员服务
70+阅读 · 2023年11月26日
ICLR'24 大语言模型智能体最新研究进展
专知会员服务
85+阅读 · 2023年10月20日
百川智能发布Baichuan2大模型,附技术报告
专知会员服务
48+阅读 · 2023年9月17日
【ChatGPT系列报告】ChatGPT不断突破,AI驶入快车道
专知会员服务
134+阅读 · 2023年2月23日
相关资讯
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
量子位
11+阅读 · 2019年9月15日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
图神经网络(GNN)必读论文及最新进展跟踪
深度学习与NLP
27+阅读 · 2019年6月7日
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
2019年最新-深度学习、生成对抗、Pytorch优秀教材推荐
深度学习与NLP
42+阅读 · 2019年4月18日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
开源星际争霸2多智能体挑战smac
专知
17+阅读 · 2019年2月13日
相关基金
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
Arxiv
11+阅读 · 2022年9月1日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
26+阅读 · 2020年2月21日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
13+阅读 · 2018年1月20日
微信扫码咨询专知VIP会员