OpenAI频繁调整产品更新路线图，最新面世推理模型o3和o4-mini

时间：2025/4/17 12:54:43 栏目：新闻资讯

OpenAI GPT-5迟迟未推出，但GPT-5前的两个过渡模型o3和o4-mini已在当地时间4月16日推出了。

这是近期OpenAI频繁调整产品路线图后的最新发布。OpenAI此前曾调整o系列推理模型发布计划，打算不再单独推出o3模型，而是将推出GPT-5，由GPT-5集成o3。不过，4月初，OpenAI CEO山姆·奥尔特曼（Sam Altman）表示计划有变，因为“整合所有内容比预想的困难”，所以GPT-5还需要更多研发时间，o3和04-mini还是会先单独推出。

在GPT-5还需等待数月才能面世的空档期，可以用到o3和o4-mini模型的是ChatGPT Plus、Pro、Team用户和API（接口）用户，前代的o1、o3-mini模型将被取代，ChatGPT企业和教育用户后续也能使用o3和o4-mini。从能力上看，这两个新模型则在代码编辑和视觉思考能力方面有较明显的提升。

“这是我们目前最智能的模型，推理模型首次能代理使用ChatGPT的每个工具，包括搜索网络、使用Python分析上传的文件、推理视觉输入内容、生成图像。”OpenAI总结称。

具体而言，在外部专家评估中，o3面对困难现实任务时，犯的重大错误比前一代的o1少20%，o4-mini则在迅速反应、经济高效方面进行了优化。在数学能力AIME 2025基准测试中，o3、o4-mini分数分别为88.9、92.7，超过o1的79.2。在代码能力的Codeforces基准测试中，o3、o4-mini得分2706、2719，超过o1的1891。在博士级科学题GPQA Diamond、跨学科专家级问题Humanity’s Last Exam、视觉数学推理MathVista等基准测试中，o3和o4-mini得分也超过o1。

此外，o3-high（high为高能力模式）和o4-mini-high的代码编辑整体准确率分别为81.3%和68.9%，超过o1-high的64.4%。o3和o4-mini将图像信息融入思维链中，用户上传教科书图表、手绘草图后，模型可以直接进行解释。当用户问及某些问题时，o3和o4-mini还会主动使用多个工具，例如用户问及某地夏季能源使用情况时，模型会在网络上搜索公共数据、编写Python代码来预测并生成图像。

OpenAI举了几个案例。例如，将一个时间表图片交给o3，告知当下的时间并要求o3输出详细计划，确保用户能看到表中的所有景点和表演，o3就能输出一份详细的行程表；要求o3分析某项体育运动的新规则如何影响投手的表现和比赛时间，o3先搜寻了网络资料，再进行统计分析；上传一张照片，可以询问模型图中最大船只的名字、在哪里停靠等问题。

成本上，在AIME 2025基准测试中，o3的性价比高于o1。OpenAI称o3和o4-mini比o1更便宜。

随着OpenAI延后推出GPT-5，不只o3和o4-mini被作为基础模型更新换代时的过渡产品。此次OpenAI还推出了开源的编程代理工具Codex CLI。本周OpenAI还在API中引入GPT-4.1系列模型，GPT-4.1的性能超过GPT-4o。随着GPT-4.1推出，OpenAI准备弃用今年2月刚面世的GPT-4.5预览版。

OpenAI近期在产品路线规划上的反复调整，使其产品矩阵变得更为复杂，后续如何整合推理o系列和基础模型GPT数字系列（如GPT-4、GPT-5）将是OpenAI面临的一大挑战。近期频繁更新产品后，OpenAI后续还需依靠基础模型GPT-5来证明自身能力。

中兴通讯：拟使用不超过300亿元自有资金进行委托理财

10部戛纳金棕榈奖电影，每一部都是经典，熬夜都要看完！

柳工：“质量回报双提升”行动方案进展公告

永莱亿耳生物农业科技(江苏)有限公司成立，注册资本1000万人民币

江苏桓通交通科技有限公司成立，注册资本1200万人民币

《刺客信条：影》玩家破百万！《影之刃零》曝多结局，可选难度

华夏银行宁波分行被罚125万元两名支行行长被警告

深圳市湾东智算科技公司增资至5亿增幅4900%

震有科技股价飙升6.16%，市值突破63亿元

高伟光梁靖康领衔，奇幻悬疑大剧《哑舍》即将来袭！

OpenAI频繁调整产品更新路线图，最新面世推理模型o3和o4-mini