OpenAI 推出新一代推理模型 o3 和经济版 o4-mini

作者： CBISMB

责任编辑：邹大斌

来源： ISMB

时间： 2025-04-17 12:54

关键字： AI ，OpenAI ，LLM ，o3 ，o4-mini

点赞： 29

收藏： 3

今天，OpenAI 推出了 o3 和 o4-mini，这是其优化推理的语言模型系列的最新成员。

这一产品里程碑是在有关该公司可能以 30 亿美元收购 Windsurf 的报道背景下发布的。Windsurf（正式名称为 Exafunction Inc.）销售备受欢迎的人工智能编码工具。该公司利用 OpenAI 的模型为其部分功能提供支持。

ChatGPT 开发者OpenAI推出的首个新算法 o3 被描述为迄今为止最先进的推理模型。而 OpenAI 产品组合中的另一款新品 o4-mini 则在一定程度上牺牲了输出质量，以换取更快的性能和更低的价格。两款模型都被描述为在“大多数现实世界”任务中比其前代产品更具成本效益。

OpenAI 表示，o3 在多个流行的 AI 性能基准测试中创下了新纪录。其中之一是 SWE-bench，该基准通过要求 AI 模型修复开源项目中的问题来评估其编码能力。另一个基准 MMMLU 包含涉及科学和商业等主题的大学水平问题，o3 在该基准上也展示了最先进的性能。

模型输出质量的一个重要贡献因素是它更擅长工具使用。所谓工具使用，是指语言模型通过外部系统（如代码编辑器或搜索引擎）来执行它可能无法独立完成的任务。OpenAI 表示，o3 可以分析和生成图像、运行 Python 代码、搜索网络，并与客户通过应用程序编程接口（API）连接的自定义工具进行交互。

“在外部专家的评估中，o3 在困难的现实世界任务中比 OpenAI 的 o1 少犯 20% 的重大错误，”OpenAI 员工在今天的发布声明中详细说明。

公司今天推出的第二款新模型 o4-mini 具有与 o3 许多相似的工具使用功能。不同之处在于，o4-mini 更小，这意味着它支持的任务范围更窄，但可以更快、更经济高效地完成这些任务。OpenAI 表示，这种成本效益将使它能够提供比 o3 显著更高的使用限制。

公司的内部测试表明，o4-mini 在涉及数学、编码和视觉输入的任务中特别有用。在不使用工具的情况下，该模型在 AIME 2024 和 AIME 2025（美国数学奥林匹克竞赛的两项资格考试）中表现优于更高级的 o3。OpenAI 的员工还详细说明：“在专家评估中，它在非 STEM 任务以及数据科学等领域也优于其前身 o3-mini。”

公司还与一个名为 Codex CLI 的新开源项目一同推出了这些模型。这是一个针对编码任务优化的 AI 代理，开发者可以在他们的桌面上运行它。它可以通过终端访问，终端是计算机操作系统的一部分，允许用户通过运行脚本而非使用图形界面来执行任务。

OpenAI 在编码助手市场的野心可能不仅限于开源编程代理。据彭博社和 CNBC 援引知情人士的消息报道，该公司正在谈判收购 Windsurf。据悉，这笔交易可能价值 30 亿美元。

Windsurf（直到最近还以 Codeium 的名义运营）提供了一款 AI 编程助手，可以生成新代码、解释现有代码并执行相关任务。这款助手可以通过插件嵌入到流行的代码编辑器中。Windsurf 还提供了一款专门构建的自定义编辑器，旨在帮助开发人员将 AI 融入他们的工作流程。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

OpenAI 推出新一代推理模型 o3 和经济版 o4-mini

相关推荐

智库专家

解决方案