OpenAI 的新推理 AI 模型会产生更多幻觉

作者:

CBISMB

责任编辑:

张金祥

来源:

ISMB

时间:

2025-04-21 18:46

关键字:

OpenAI PersonQA o4-mini AI幻觉

根据OpenAI内部测试,o3和o4-mini在特定任务(如代码生成和复杂数学计算)上的表现远超前身,但其"幻觉率"(生成与事实不符的内容)却显著上升。以衡量人类认知准确度的PersonQA基准为例,o3的幻觉率达33%,是前代模型o1(16%)和o3-mini(14.8%)的两倍;而o4-mini的幻觉率更是飙升至48%。

非营利研究实验室Transluce的第三方测试进一步揭示了问题的复杂性。研究员发现,o3在回答中会虚构不存在的操作,例如声称在2021款MacBook Pro上运行了无法实现的代码。"强化学习可能放大了原本可通过标准训练缓解的问题,"前OpenAI员工、Transluce研究员Neil Chowdhury推测。

OpenAI对模型性能的宣称与外部测试结果之间的矛盾,更引发了行业对基准测试透明度的质疑。去年12月,OpenAI宣称o3在FrontierMath数学题集上的得分超过25%,远超竞争对手。但独立机构Epoch AI的测试显示,公开版o3的实际得分仅约10%,与OpenAI内部测试的"激进计算设置"结果差距悬殊。

"公开模型与测试版本存在优化差异,"OpenAI技术人员在直播中解释,生产版模型为降低成本和提速牺牲了部分性能。这一解释未能完全平息争议,批评者指出,企业需更谨慎对待厂商主导的基准测试,尤其是当结果直接影响商业决策时。

幻觉问题对企业应用构成直接威胁。斯坦福大学教授Kian Katanforoosh在实际测试中发现,o3虽擅长编码,却频繁生成失效的网站链接。"律师事务所无法容忍合同中充斥虚构条款,"他警告。

提升准确性的潜在方案之一是为模型集成网络搜索功能。OpenAI的GPT-4o通过搜索功能在SimpleQA基准上达到90%准确率,但这一方法需权衡隐私与实用性——用户需同意将提示暴露给第三方。

OpenAI发言人承认幻觉仍是"持续研究领域",并强调正在优化模型可靠性。然而,随着推理模型规模扩大,幻觉问题可能进一步加剧,寻找根本性解决方案已刻不容缓。

此次事件并非孤例。今年初,马斯克旗下xAI的Grok 3模型被指发布误导性基准图表;Meta亦承认其宣传的模型性能与开发者版本存在差异。随着AI竞赛白热化,基准测试的透明度和可复现性已成为行业痛点。

"当服务提供方主导测试时,结果需审慎对待,"一位AI伦理学者评论道。企业用户呼吁建立独立验证机制,确保技术进展不被营销话术掩盖。

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-2
京公网安备:11010502051901号
ICP证:京B2-20230255