新闻资讯

OpenAI频繁调整产品更新路线图,最新面世推理模型o3和o4-mini

OpenAI GPT-5迟迟未推出,但GPT-5前的两个过渡模型o3和o4-mini已在当地时间4月16日推出了。

这是近期OpenAI频繁调整产品路线图后的最新发布。OpenAI此前曾调整o系列推理模型发布计划,打算不再单独推出o3模型,而是将推出GPT-5,由GPT-5集成o3。不过,4月初,OpenAI CEO山姆·奥尔特曼(Sam Altman)表示计划有变,因为“整合所有内容比预想的困难”,所以GPT-5还需要更多研发时间,o3和04-mini还是会先单独推出。

在GPT-5还需等待数月才能面世的空档期,可以用到o3和o4-mini模型的是ChatGPT Plus、Pro、Team用户和API(接口)用户,前代的o1、o3-mini模型将被取代,ChatGPT企业和教育用户后续也能使用o3和o4-mini。从能力上看,这两个新模型则在代码编辑和视觉思考能力方面有较明显的提升。

“这是我们目前最智能的模型,推理模型首次能代理使用ChatGPT的每个工具,包括搜索网络、使用Python分析上传的文件、推理视觉输入内容、生成图像。”OpenAI总结称。

具体而言,在外部专家评估中,o3面对困难现实任务时,犯的重大错误比前一代的o1少20%,o4-mini则在迅速反应、经济高效方面进行了优化。在数学能力AIME 2025基准测试中,o3、o4-mini分数分别为88.9、92.7,超过o1的79.2。在代码能力的Codeforces基准测试中,o3、o4-mini得分2706、2719,超过o1的1891。在博士级科学题GPQA Diamond、跨学科专家级问题Humanity’s Last Exam、视觉数学推理MathVista等基准测试中,o3和o4-mini得分也超过o1。

此外,o3-high(high为高能力模式)和o4-mini-high的代码编辑整体准确率分别为81.3%和68.9%,超过o1-high的64.4%。o3和o4-mini将图像信息融入思维链中,用户上传教科书图表、手绘草图后,模型可以直接进行解释。当用户问及某些问题时,o3和o4-mini还会主动使用多个工具,例如用户问及某地夏季能源使用情况时,模型会在网络上搜索公共数据、编写Python代码来预测并生成图像。

OpenAI举了几个案例。例如,将一个时间表图片交给o3,告知当下的时间并要求o3输出详细计划,确保用户能看到表中的所有景点和表演,o3就能输出一份详细的行程表;要求o3分析某项体育运动的新规则如何影响投手的表现和比赛时间,o3先搜寻了网络资料,再进行统计分析;上传一张照片,可以询问模型图中最大船只的名字、在哪里停靠等问题。



成本上,在AIME 2025基准测试中,o3的性价比高于o1。OpenAI称o3和o4-mini比o1更便宜。

随着OpenAI延后推出GPT-5,不只o3和o4-mini被作为基础模型更新换代时的过渡产品。此次OpenAI还推出了开源的编程代理工具Codex CLI。本周OpenAI还在API中引入GPT-4.1系列模型,GPT-4.1的性能超过GPT-4o。随着GPT-4.1推出,OpenAI准备弃用今年2月刚面世的GPT-4.5预览版。

OpenAI近期在产品路线规划上的反复调整,使其产品矩阵变得更为复杂,后续如何整合推理o系列和基础模型GPT数字系列(如GPT-4、GPT-5)将是OpenAI面临的一大挑战。近期频繁更新产品后,OpenAI后续还需依靠基础模型GPT-5来证明自身能力。

  • 中兴通讯:拟使用不超过300亿元自有资金进行委托理财
  • 10部戛纳金棕榈奖电影,每一部都是经典,熬夜都要看完!
  • 柳工:“质量回报双提升”行动方案进展公告
  • 永莱亿耳生物农业科技(江苏)有限公司成立,注册资本1000万人民币
  • 江苏桓通交通科技有限公司成立,注册资本1200万人民币
  • 《刺客信条:影》玩家破百万!《影之刃零》曝多结局,可选难度
  • 华夏银行宁波分行被罚125万元 两名支行行长被警告
  • 深圳市湾东智算科技公司增资至5亿 增幅4900%
  • 震有科技股价飙升6.16%,市值突破63亿元
  • 高伟光梁靖康领衔,奇幻悬疑大剧《哑舍》即将来袭!
  • OpenAI频繁调整产品更新路线图,最新面世推理模型o3和o4-mini

    相关资讯