新人注册送$50

正文

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

编辑：小叶发布时间：2025-02-01 12:48:29

DeepSeek的迅速崛起似乎为大模型领域注入了一剂强心针——

就在近日深夜，OpenAI紧急发布了其最新推理模型o3-mini系列。

该系列包括三个版本：low、medium和high。目前，o3-mini和o3-mini-high已经正式上线：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

据官方介绍，o3系列的目标是推动低成本推理的边界。

从今天起，ChatGPT Plus、团队和Pro用户可以访问OpenAI o3-mini，而企业级访问将在一周后开放。

此外，免费用户也可以通过选择“Search+Reason”选项体验o3-mini的搜索功能。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

或许是受到DeepSeek的压力，这是OpenAI首次向用户免费推出的推理模型。

在随后的Reddit“有问必答”活动中，OpenAI CEO奥特曼罕见地公开反思：

在开源权重AI模型的问题上，（个人认为）我们站在了历史错误的一边。

与此同时，网友们已经在短短数小时内展开了疯狂测试……

针对STEM推理优化，但价格依旧高昂

先来看看技术报告中的亮点。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

去年年底，OpenAI上线了o3-mini预览版，再次刷新小模型的能力边界。（在成本和低延迟方面与o1-mini相当）

当时，CEO奥特曼预告称，正式版将在今年1月发布。而就在截止日期的最后时刻，o3-mini正式版终于上线。

整体来看，与前一代o1-mini类似，o3-mini也针对STEM（科学、技术、工程、数学）进行了优化，延续了mini系列小而美的特点。

仅以o3-mini（medium）为例，它在数学编码上的表现与o1系列相当，同时响应速度更快。

人类专家测评显示，大多数情况下，o3-mini比o1-mini生成的答案更准确、更清晰，获得了56%的偏好度，同时在处理复杂现实问题时的重大错误率降低了39%。

在数学能力方面，低推理强度下的o3-mini（low）达到了与o1-mini相当的水平；中等推理强度下媲美满血版o1；而在高推理强度（high）下，其表现直接超越了o1系列的所有模型。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

在由60多位顶尖数学家设计的FrontierMath难题测试中，高推理强度下的o3-mini相较o1系列有了显著提升。

官方特别指出，如果搭配Python工具使用，o3-mini（high）在第一次尝试时解决了超过32%的问题，其中包括28%以上的T3级问题。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

在科学能力方面，针对博士水平的物理、化学和生物问题，低推理强度下的o3-mini已经与o1-mini拉开差距。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

在编码能力上，o3-mini在各个层级上领先o1系列。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

根据LiveBench的表现可以看出，随着推理强度升级，o3-mini的优势还在不断扩大。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

值得一提的是，o3-mini在取得上述优势的同时响应更快，平均响应时间为7.7秒，较o1-mini的10.16秒提升了24%。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

在安全评估方面，o3-mini在多项安全测试中明显超过了GPT-4o。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

不过，在价格方面，与输入/输出分别为0.14/0.55美元的DeepSeek-R1相比，o3-mini依旧显得昂贵。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

有网友评论称，DeepSeek-R1目前仍是性价比之王：更快、更好、更便宜。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

顺便提一句，OpenAI此次照例公布了o3-mini背后的研发团队。这次项目由奥特曼本人亲自带队，研究主管为Carpus Chang和Kristen Ying（名单中还有许多熟悉的面孔，如任鸿宇、赵盛佳等）。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

网友实测反馈褒贬不一

正如前所述，目前网友们已经开始对o3-mini进行大量测试。

例如，在用Python实现“球在四维体内部弹跳”的任务中，有人认为o3-mini是当前最好的LLM：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

效果如下：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

有网友尝试用DeepSeek完成相同任务，结果发现o3-mini稍胜一筹：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

在更直观的对比中，比如让一个球在旋转的六边形内弹跳并受到重力和摩擦力影响时，o3-mini和DeepSeek R1的效果差距较为明显：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

即使是更复杂的任务，比如在球体内创建100个弹跳的黄色球，o3-mini也能轻松完成。

再如让o3-mini设计两个互相竞争的贪吃蛇游戏：

除了DeepSeek之外，网友还对比了o1和o3-mini的效果，例如生成一座庞大且惊人的史诗级漂浮城市。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

一位网友提出了一个令几乎所有大模型都出错的迷惑性题目，但让他惊讶的是，o3-mini竟然答对了：

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

然而，知名播客博主Lex Fridman对o3-mini的评价则是：

“OpenAI o3-mini是一个好模型，但DeepSeek R1性能相似，价格更低，并揭示了其推理过程。”

“更好的模型将会出现（迫不及待想要 o3-pro），但‘DeepSeek 时刻’是真实的。我认为五年后它仍会被记住，作为科技历史上的一个转折点。”

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

One More Thing

就在o3-mini上线几小时后，奥特曼本人携团队参与了Reddit的“有问必答”活动。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

考虑到开源DeepSeek最近搅动了AI圈，奥特曼罕见地公开反思：

“在开源权重AI模型的问题上，（个人认为）我们站在了历史错误的一边。”

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

他甚至承认，OpenAI的领先优势不会像以前那么大了。

“DeepSeek的确很优秀，我们也会继续研发更好的模型，但领先优势将更小。”

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

与此同时，OpenAI的一些未来计划也被曝光。

例如，高级语音模式即将迎来更新，OpenAI会直接称其为GPT-5，而不是GPT-5o，但具体时间表尚未公布。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

此外，推理模型还将支持调用更多工具。

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

最后，满血版o3也被提及，但看起来距离实际发布还相当遥远……

OpenAI发布首个免费推理模型o3-mini，CEO反思不开源策略

新人注册送$50

热门

排名

币种

价格(CNY)

价格(USDT)

24小时%

市值

交易量(24小时)