OpenAI 的新推理 AI 模型会产生更多幻觉

作者：

CBISMB

责任编辑：

张金祥

来源：

ISMB

时间：

2025-04-21 18:46

关键字：

OpenAI PersonQA o4-mini AI幻觉

根据OpenAI内部测试，o3和o4-mini在特定任务（如代码生成和复杂数学计算）上的表现远超前身，但其"幻觉率"（生成与事实不符的内容）却显著上升。以衡量人类认知准确度的PersonQA基准为例，o3的幻觉率达33%，是前代模型o1（16%）和o3-mini（14.8%）的两倍；而o4-mini的幻觉率更是飙升至48%。

非营利研究实验室Transluce的第三方测试进一步揭示了问题的复杂性。研究员发现，o3在回答中会虚构不存在的操作，例如声称在2021款MacBook Pro上运行了无法实现的代码。"强化学习可能放大了原本可通过标准训练缓解的问题，"前OpenAI员工、Transluce研究员Neil Chowdhury推测。

OpenAI对模型性能的宣称与外部测试结果之间的矛盾，更引发了行业对基准测试透明度的质疑。去年12月，OpenAI宣称o3在FrontierMath数学题集上的得分超过25%，远超竞争对手。但独立机构Epoch AI的测试显示，公开版o3的实际得分仅约10%，与OpenAI内部测试的"激进计算设置"结果差距悬殊。

"公开模型与测试版本存在优化差异，"OpenAI技术人员在直播中解释，生产版模型为降低成本和提速牺牲了部分性能。这一解释未能完全平息争议，批评者指出，企业需更谨慎对待厂商主导的基准测试，尤其是当结果直接影响商业决策时。

幻觉问题对企业应用构成直接威胁。斯坦福大学教授Kian Katanforoosh在实际测试中发现，o3虽擅长编码，却频繁生成失效的网站链接。"律师事务所无法容忍合同中充斥虚构条款，"他警告。

提升准确性的潜在方案之一是为模型集成网络搜索功能。OpenAI的GPT-4o通过搜索功能在SimpleQA基准上达到90%准确率，但这一方法需权衡隐私与实用性——用户需同意将提示暴露给第三方。

OpenAI发言人承认幻觉仍是"持续研究领域"，并强调正在优化模型可靠性。然而，随着推理模型规模扩大，幻觉问题可能进一步加剧，寻找根本性解决方案已刻不容缓。

此次事件并非孤例。今年初，马斯克旗下xAI的Grok 3模型被指发布误导性基准图表；Meta亦承认其宣传的模型性能与开发者版本存在差异。随着AI竞赛白热化，基准测试的透明度和可复现性已成为行业痛点。

"当服务提供方主导测试时，结果需审慎对待，"一位AI伦理学者评论道。企业用户呼吁建立独立验证机制，确保技术进展不被营销话术掩盖。

OpenAI 的新推理 AI 模型会产生更多幻觉

智库专家

解决方案