新人注册送$50
正文

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

编辑:小叶 发布时间:2025-02-01 12:48:29

DeepSeek的迅速崛起似乎为大模型领域注入了一剂强心针——

就在近日深夜,OpenAI紧急发布了其最新推理模型o3-mini系列。

该系列包括三个版本:low、medium和high。目前,o3-mini和o3-mini-high已经正式上线:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

据官方介绍,o3系列的目标是推动低成本推理的边界。

从今天起,ChatGPT Plus、团队和Pro用户可以访问OpenAI o3-mini,而企业级访问将在一周后开放。

此外,免费用户也可以通过选择“Search+Reason”选项体验o3-mini的搜索功能。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

或许是受到DeepSeek的压力,这是OpenAI首次向用户免费推出的推理模型。

在随后的Reddit“有问必答”活动中,OpenAI CEO奥特曼罕见地公开反思:

在开源权重AI模型的问题上,(个人认为)我们站在了历史错误的一边。

与此同时,网友们已经在短短数小时内展开了疯狂测试……

针对STEM推理优化,但价格依旧高昂

先来看看技术报告中的亮点。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

去年年底,OpenAI上线了o3-mini预览版,再次刷新小模型的能力边界。(在成本和低延迟方面与o1-mini相当)

当时,CEO奥特曼预告称,正式版将在今年1月发布。而就在截止日期的最后时刻,o3-mini正式版终于上线。

整体来看,与前一代o1-mini类似,o3-mini也针对STEM(科学、技术、工程、数学)进行了优化,延续了mini系列小而美的特点。

仅以o3-mini(medium)为例,它在数学编码上的表现与o1系列相当,同时响应速度更快。

人类专家测评显示,大多数情况下,o3-mini比o1-mini生成的答案更准确、更清晰,获得了56%的偏好度,同时在处理复杂现实问题时的重大错误率降低了39%。

在数学能力方面,低推理强度下的o3-mini(low)达到了与o1-mini相当的水平;中等推理强度下媲美满血版o1;而在高推理强度(high)下,其表现直接超越了o1系列的所有模型。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

在由60多位顶尖数学家设计的FrontierMath难题测试中,高推理强度下的o3-mini相较o1系列有了显著提升。

官方特别指出,如果搭配Python工具使用,o3-mini(high)在第一次尝试时解决了超过32%的问题,其中包括28%以上的T3级问题。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

在科学能力方面,针对博士水平的物理、化学和生物问题,低推理强度下的o3-mini已经与o1-mini拉开差距。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

在编码能力上,o3-mini在各个层级上领先o1系列。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

根据LiveBench的表现可以看出,随着推理强度升级,o3-mini的优势还在不断扩大。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

值得一提的是,o3-mini在取得上述优势的同时响应更快,平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

在安全评估方面,o3-mini在多项安全测试中明显超过了GPT-4o。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

不过,在价格方面,与输入/输出分别为0.14/0.55美元的DeepSeek-R1相比,o3-mini依旧显得昂贵。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

有网友评论称,DeepSeek-R1目前仍是性价比之王:更快、更好、更便宜。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

顺便提一句,OpenAI此次照例公布了o3-mini背后的研发团队。这次项目由奥特曼本人亲自带队,研究主管为Carpus Chang和Kristen Ying(名单中还有许多熟悉的面孔,如任鸿宇、赵盛佳等)。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

网友实测反馈褒贬不一

正如前所述,目前网友们已经开始对o3-mini进行大量测试。

例如,在用Python实现“球在四维体内部弹跳”的任务中,有人认为o3-mini是当前最好的LLM:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

效果如下:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

有网友尝试用DeepSeek完成相同任务,结果发现o3-mini稍胜一筹:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

在更直观的对比中,比如让一个球在旋转的六边形内弹跳并受到重力和摩擦力影响时,o3-mini和DeepSeek R1的效果差距较为明显:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

即使是更复杂的任务,比如在球体内创建100个弹跳的黄色球,o3-mini也能轻松完成。

再如让o3-mini设计两个互相竞争的贪吃蛇游戏:

除了DeepSeek之外,网友还对比了o1和o3-mini的效果,例如生成一座庞大且惊人的史诗级漂浮城市。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

一位网友提出了一个令几乎所有大模型都出错的迷惑性题目,但让他惊讶的是,o3-mini竟然答对了:

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

然而,知名播客博主Lex Fridman对o3-mini的评价则是:

“OpenAI o3-mini是一个好模型,但DeepSeek R1性能相似,价格更低,并揭示了其推理过程。”

“更好的模型将会出现(迫不及待想要 o3-pro),但‘DeepSeek 时刻’是真实的。我认为五年后它仍会被记住,作为科技历史上的一个转折点。”

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

One More Thing

就在o3-mini上线几小时后,奥特曼本人携团队参与了Reddit的“有问必答”活动。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

考虑到开源DeepSeek最近搅动了AI圈,奥特曼罕见地公开反思:

“在开源权重AI模型的问题上,(个人认为)我们站在了历史错误的一边。”

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

他甚至承认,OpenAI的领先优势不会像以前那么大了。

“DeepSeek的确很优秀,我们也会继续研发更好的模型,但领先优势将更小。”

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

与此同时,OpenAI的一些未来计划也被曝光。

例如,高级语音模式即将迎来更新,OpenAI会直接称其为GPT-5,而不是GPT-5o,但具体时间表尚未公布。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

此外,推理模型还将支持调用更多工具。

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略

最后,满血版o3也被提及,但看起来距离实际发布还相当遥远……

OpenAI发布首个免费推理模型o3-mini,CEO反思不开源策略