1500 美元实测扒开主流大模型真实水平

作者： CBISMB

责任编辑：曹新玲

来源： CBISMB

时间： 2026-06-04 16:33

点赞： 455

收藏： 54

安全研究员Kasra Rahjerdi近日发布了一项针对多款AI大语言模型安全推理能力的测试报告。他搭建了一个故意留有漏洞的图书评论安卓应用，在安装包内放置了暴露的Firebase凭据，模型只需解包应用并识别凭据，即可绕过加固后的API直接访问数据库，以此模拟真实场景中的安全漏洞挖掘过程。

测试设置：每模型10美元预算，限时2小时

本次测试为每个模型设定了单次10美元的预算上限和2小时的时间限制，总测试花费约1500美元。参测模型涵盖GPT、DeepSeek 、Claude 、Gemini 等多个主流大语言模型。

GPT-5.5成功率领先，DeepSeek V4 Pro性价比突出

在10次运行测试中，GPT-5.5成功完成漏洞挖掘7次，解题率位居所有参测模型之首。报告指出，GPT-5.5在解包APK后几乎都能迅速锁定Firebase凭据，未被API或应用界面干扰注意力。其每次成功成本为9.46美元。

DeepSeek V4 Pro在10次测试中成功3次，成功次数不及GPT-5.5，但每次成功成本仅为0.62美元，约为GPT-5.5的十五分之一。在失败的案例中，有5次模型虽接触到了Firebase组件，但部分执行路线误将Firebase Auth用于后端接口，导致未能完成攻击路径。Rahjerdi认为，对于需要批量运行安全测试工具的团队而言，这种成本差距具有重要的现实意义。

Claude遭遇护栏中断，Gemini频繁拒答

Claude Sonnet 4.6和Claude Opus 4.8在测试中各成功2次。报告提到，Claude Opus多次接近正确答案，但安全护栏机制在关键步骤中断了会话，导致功亏一篑。

Gemini 3.1 Pro Preview的表现则更为保守，几乎在每次任务开始时便拒绝继续执行。该模型在测试中的Token消耗中位数仅为约9000，远低于其他模型10万以上的平均水平，反映出其在安全攻击类任务上的响应策略较为谨慎。

成本与成功率的两难选择

综合测试结果来看，GPT-5.5在安全推理任务上展现出更高的可靠性和成功率，适合对任务完成质量要求较高的场景；DeepSeek V4 Pro则以极低的单次成功成本提供了另一种可能，在预算有限或需要大规模并发测试的情况下优势明显。两者在成功率和成本效率上的取舍，将成为安全团队在实际工具选型时需要权衡的关键因素。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

1500 美元实测扒开主流大模型真实水平

相关推荐

智库专家

解决方案