1500 美元实测扒开主流大模型真实水平
作者: CBISMB
责任编辑: 曹新玲
来源: CBISMB
时间: 2026-06-04 16:33
关键字: 主流模型 ,GPT-5.5 ,DeepSeek V4 Pro
浏览: 1
点赞: 0
收藏: 0
安全研究员Kasra Rahjerdi近日发布了一项针对多款AI大语言模型安全推理能力的测试报告。他搭建了一个故意留有漏洞的图书评论安卓应用,在安装包内放置了暴露的Firebase凭据,模型只需解包应用并识别凭据,即可绕过加固后的API直接访问数据库,以此模拟真实场景中的安全漏洞挖掘过程。
测试设置:每模型10美元预算,限时2小时
本次测试为每个模型设定了单次10美元的预算上限和2小时的时间限制,总测试花费约1500美元。参测模型涵盖GPT、DeepSeek 、Claude 、Gemini 等多个主流大语言模型。
GPT-5.5成功率领先,DeepSeek V4 Pro性价比突出
在10次运行测试中,GPT-5.5成功完成漏洞挖掘7次,解题率位居所有参测模型之首。报告指出,GPT-5.5在解包APK后几乎都能迅速锁定Firebase凭据,未被API或应用界面干扰注意力。其每次成功成本为9.46美元。
DeepSeek V4 Pro在10次测试中成功3次,成功次数不及GPT-5.5,但每次成功成本仅为0.62美元,约为GPT-5.5的十五分之一。在失败的案例中,有5次模型虽接触到了Firebase组件,但部分执行路线误将Firebase Auth用于后端接口,导致未能完成攻击路径。Rahjerdi认为,对于需要批量运行安全测试工具的团队而言,这种成本差距具有重要的现实意义。
Claude遭遇护栏中断,Gemini频繁拒答
Claude Sonnet 4.6和Claude Opus 4.8在测试中各成功2次。报告提到,Claude Opus多次接近正确答案,但安全护栏机制在关键步骤中断了会话,导致功亏一篑。
Gemini 3.1 Pro Preview的表现则更为保守,几乎在每次任务开始时便拒绝继续执行。该模型在测试中的Token消耗中位数仅为约9000,远低于其他模型10万以上的平均水平,反映出其在安全攻击类任务上的响应策略较为谨慎。
成本与成功率的两难选择
综合测试结果来看,GPT-5.5在安全推理任务上展现出更高的可靠性和成功率,适合对任务完成质量要求较高的场景;DeepSeek V4 Pro则以极低的单次成功成本提供了另一种可能,在预算有限或需要大规模并发测试的情况下优势明显。两者在成功率和成本效率上的取舍,将成为安全团队在实际工具选型时需要权衡的关键因素。