Anthropic发布Mythos 5和Fable 5,多项AI性能基准刷新记录

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-06-10 15:22

关键字: 大模型 Claude Anthropic Mythos 5 Fable 5

浏览: 0

点赞: 0

收藏: 0

Anthropic今日发布了Claude Mythos 5和Claude Fable 5两款大型语言模型,官方表示两款模型在广泛基准测试中均超越竞争对手。

两款模型均衍生自今年四月推出的Claude Mythos Preview——该模型凭借发现高度复杂网络安全漏洞的能力引发广泛关注。Anthropic表示,Mythos 5和Fable 5的性能均进一步超越了Mythos Preview。

访问权限与定位

Fable 5面向大众开放,但针对高风险用例(如网络安全漏洞发现)内置了屏蔽机制。Mythos 5则拥有更宽松的安全护栏,仅向有限数量的机构开放,并将由Anthropic与美国政府联合管理访问权限。

科学研究能力

Anthropic称,Mythos 5是Claude系列中首个能够"持续产出新颖、有说服力科学假说"的模型。该公司要求模型对若干分子生物学领域尚未完全理解的现象给出解释,部分建议被认为极具前景,研究人员决定启动实验加以验证。

其中一项假说已在实验室中得到证实——模型发现了大肠杆菌某种蛋白质的新信息。在另一项内部测试中,Mythos 5识别出14个潜在药物研发蛋白质靶点,其中9个被证明是"药物设计的强候选目标"。此外,该模型将蛋白质发现流程中部分任务的速度提升了10倍。

编程与技术性能

在SWE-Bench Pro编程基准测试中,Fable 5和Mythos 5以80.3%的得分刷新记录。早期采用方Stripe利用Fable 5对一个拥有5000万行代码的内部软件仓库进行了现代化改造——Anthropic表示,原本需要两个月才能完成的工作,Fable 5在一天内就完成了。

文档与法律任务

在涵盖文档审阅任务的GDP.pdf基准测试中,Fable 5和Mythos 5比Claude Opus 4.8高出7.3%。两款模型还在衡量大模型自动化法律任务能力的另一项基准测试中创下新纪录。

安全护栏

Fable 5内置护栏会对涉及网络安全、生物学和化学的请求进行屏蔽,并将此类提示词重定向至Claude Opus 4.8——Anthropic于今年五月发布的一款低级别模型。

定价

Anthropic新模型定价为:输入每百万token 10美元,输出每百万token 50美元,不到Mythos Preview收费标准的一半。此外,Mythos 5和Fable 5完成同等任务所需的提示词数量也更少。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。