被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。
此次发布,o3-mini 包含 low、medium 和 high 三个版本。OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。
不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。
虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。
OpenAI o3-mini 技术报告
OpenAI o系列模型通过大规模强化学习进行训练,利用思维链(chain of thought)进行推理。这些先进的推理能力为提升我们模型的安全性和鲁棒性提供了新的途径。特别是,当应对可能不安全的提示时,我们的模型能够在上下文中推理我们的安全策略,通过深思熟虑的对齐(deliberative alignment)[1]。这使得OpenAI o3-mini在某些风险基准测试中与最先进的性能达到同等水平,例如生成非法建议、选择刻板的回应以及容易受到已知突破的影响。训练模型在回答之前整合思维链有潜力解锁显著的好处,同时也增加了来自增强智能的潜在风险。 在《准备框架》(Preparedness Framework)下,OpenAI安全咨询小组(SAG)建议将OpenAI o3-mini(前缓解版)模型总体评定为中等风险。它在说服力(Persuasion)、化学、生物、辐射、核(CBRN)、以及模型自治性(Model Autonomy)方面的风险评定为中等风险,而在网络安全(Cybersecurity)方面的风险评定为低风险。只有那些在后缓解评定中为中等风险或以下的模型,才能部署;而只有那些在后缓解评定中为高风险或以下的模型,才能进一步开发。 由于编码和研究工程表现的提升,OpenAI o3-mini是第一个在模型自治性(Model Autonomy)方面达到中等风险评定的模型(见第5节《准备框架评估》)。然而,它在旨在测试与自我改进相关的现实世界机器学习研究能力的评估中表现不佳,而这对于高风险分类是必需的。我们的结果强调了构建稳健的对齐方法、广泛压力测试其有效性以及保持严格风险管理协议的必要性。 本报告概述了针对OpenAI o3-mini模型所开展的安全工作,包括安全评估、外部红队测试以及《准备框架》评估。