OpenAI 的新推理 AI 模型会产生更多幻觉
CBISMB
责任编辑:张金祥
ISMB
时间:2025-04-21 18:46
OpenAI PersonQA o4-mini AI幻觉
根据OpenAI内部测试,o3和o4-mini在特定任务(如代码生成和复杂数学计算)上的表现远超前身,但其"幻觉率"(生成与事实不符的内容)却显著上升。以衡量人类认知准确度的PersonQA基准为例,o3的幻觉率达33%,是前代模型o1(16%)和o3-mini(14.8%)的两倍;而o4-mini的幻觉率更是飙升至48%。
非营利研究实验室Transluce的第三方测试进一步揭示了问题的复杂性。研究员发现,o3在回答中会虚构不存在的操作,例如声称在2021款MacBook Pro上运行了无法实现的代码。"强化学习可能放大了原本可通过标准训练缓解的问题,"前OpenAI员工、Transluce研究员Neil Chowdhury推测。
OpenAI对模型性能的宣称与外部测试结果之间的矛盾,更引发了行业对基准测试透明度的质疑。去年12月,OpenAI宣称o3在FrontierMath数学题集上的得分超过25%,远超竞争对手。但独立机构Epoch AI的测试显示,公开版o3的实际得分仅约10%,与OpenAI内部测试的"激进计算设置"结果差距悬殊。
"公开模型与测试版本存在优化差异,"OpenAI技术人员在直播中解释,生产版模型为降低成本和提速牺牲了部分性能。这一解释未能完全平息争议,批评者指出,企业需更谨慎对待厂商主导的基准测试,尤其是当结果直接影响商业决策时。
幻觉问题对企业应用构成直接威胁。斯坦福大学教授Kian Katanforoosh在实际测试中发现,o3虽擅长编码,却频繁生成失效的网站链接。"律师事务所无法容忍合同中充斥虚构条款,"他警告。
提升准确性的潜在方案之一是为模型集成网络搜索功能。OpenAI的GPT-4o通过搜索功能在SimpleQA基准上达到90%准确率,但这一方法需权衡隐私与实用性——用户需同意将提示暴露给第三方。
OpenAI发言人承认幻觉仍是"持续研究领域",并强调正在优化模型可靠性。然而,随着推理模型规模扩大,幻觉问题可能进一步加剧,寻找根本性解决方案已刻不容缓。
此次事件并非孤例。今年初,马斯克旗下xAI的Grok 3模型被指发布误导性基准图表;Meta亦承认其宣传的模型性能与开发者版本存在差异。随着AI竞赛白热化,基准测试的透明度和可复现性已成为行业痛点。
"当服务提供方主导测试时,结果需审慎对待,"一位AI伦理学者评论道。企业用户呼吁建立独立验证机制,确保技术进展不被营销话术掩盖。