OpenAI 推出新一代推理模型 o3 和经济版 o4-mini
CBISMB
责任编辑:邹大斌
ISMB
时间:2025-04-17 12:54
OpenAI o3 o4-mini AI LLM
今天,OpenAI 推出了 o3 和 o4-mini,这是其优化推理的语言模型系列的最新成员。
这一产品里程碑是在有关该公司可能以 30 亿美元收购 Windsurf 的报道背景下发布的。Windsurf(正式名称为 Exafunction Inc.)销售备受欢迎的人工智能编码工具。该公司利用 OpenAI 的模型为其部分功能提供支持。
ChatGPT 开发者OpenAI推出的首个新算法 o3 被描述为迄今为止最先进的推理模型。而 OpenAI 产品组合中的另一款新品 o4-mini 则在一定程度上牺牲了输出质量,以换取更快的性能和更低的价格。两款模型都被描述为在“大多数现实世界”任务中比其前代产品更具成本效益。
OpenAI 表示,o3 在多个流行的 AI 性能基准测试中创下了新纪录。其中之一是 SWE-bench,该基准通过要求 AI 模型修复开源项目中的问题来评估其编码能力。另一个基准 MMMLU 包含涉及科学和商业等主题的大学水平问题,o3 在该基准上也展示了最先进的性能。
模型输出质量的一个重要贡献因素是它更擅长工具使用。所谓工具使用,是指语言模型通过外部系统(如代码编辑器或搜索引擎)来执行它可能无法独立完成的任务。OpenAI 表示,o3 可以分析和生成图像、运行 Python 代码、搜索网络,并与客户通过应用程序编程接口(API)连接的自定义工具进行交互。
“在外部专家的评估中,o3 在困难的现实世界任务中比 OpenAI 的 o1 少犯 20% 的重大错误,”OpenAI 员工在今天的发布声明中详细说明。
公司今天推出的第二款新模型 o4-mini 具有与 o3 许多相似的工具使用功能。不同之处在于,o4-mini 更小,这意味着它支持的任务范围更窄,但可以更快、更经济高效地完成这些任务。OpenAI 表示,这种成本效益将使它能够提供比 o3 显著更高的使用限制。
公司的内部测试表明,o4-mini 在涉及数学、编码和视觉输入的任务中特别有用。在不使用工具的情况下,该模型在 AIME 2024 和 AIME 2025(美国数学奥林匹克竞赛的两项资格考试)中表现优于更高级的 o3。OpenAI 的员工还详细说明:“在专家评估中,它在非 STEM 任务以及数据科学等领域也优于其前身 o3-mini。”
公司还与一个名为 Codex CLI 的新开源项目一同推出了这些模型。这是一个针对编码任务优化的 AI 代理,开发者可以在他们的桌面上运行它。它可以通过终端访问,终端是计算机操作系统的一部分,允许用户通过运行脚本而非使用图形界面来执行任务。
OpenAI 在编码助手市场的野心可能不仅限于开源编程代理。据彭博社和 CNBC 援引知情人士的消息报道,该公司正在谈判收购 Windsurf。据悉,这笔交易可能价值 30 亿美元。
Windsurf(直到最近还以 Codeium 的名义运营)提供了一款 AI 编程助手,可以生成新代码、解释现有代码并执行相关任务。这款助手可以通过插件嵌入到流行的代码编辑器中。Windsurf 还提供了一款专门构建的自定义编辑器,旨在帮助开发人员将 AI 融入他们的工作流程。