5月AI模型大战：Claude Opus 4.8登顶Super-Agent基准，Gemini 3.5 Flash冲击编程王座，百度ERNIE 5.1参数砍2/3进全球前四

宫先生 2026-06-02 13:29:10 发布

1 浏览 0 点赞 0 收藏

2026年5月堪称AI模型史上最密集的发布月。从Anthropic的Claude Opus 4.8到Google的Gemini 3.5 Flash，从百度的ERNIE 5.1到Mistral的开源双响炮，全球AI巨头和独角兽们几乎在同一周内亮出了各自的王牌。

Anthropic：Claude Opus 4.8加冕Agent之王

5月28日，Anthropic发布Claude Opus 4.8，在编码、推理和长时间运行任务上全面升级。最关键的成绩是：Claude Opus 4.8成为首个完成Super-Agent基准所有测试用例的模型，同时在一个极具挑战性的法律基准上首次突破10%——这在以前被认为是AI难以企及的领域。更让企业用户安心的是，Opus 4.8维持了与前代相同的价格。

同一天，Anthropic宣布完成650亿美元H轮融资，估值9650亿美元，由Altimeter、Dragoneer、Greenoaks和红杉领投。年化营收已突破470亿美元。Anthropic还收购了AI初创公司Stainless，并在米兰和韩国开设新办公室，与KPMG和PwC达成企业Claude集成合作。Claude现已入驻AWS、Google Cloud和Azure三大云平台。

Google：Gemini Omni开启视频交互新时代

5月19日的Google I/O大会上，Gemini Omni Flash成为最大亮点——这个模型接受任何输入（图像、音频、视频、文本），并能通过自然语言生成和编辑视频，同时保持物理一致性和角色连贯性。这意味着你可以用对话的方式剪辑视频，AI理解你的意图并精准执行。

Gemini 3.5 Flash同样强势：在Terminal-Bench 2.1编码基准上超越Gemini 3.1 Pro，Artificial Analysis指数排名前列。Google还推出了Antigravity平台，主打Agent优先的开发体验，搜索中的Universal Cart和信息Agent展示了即时购物的未来形态。

中国力量：百度ERNIE 5.1参数砍2/3进全球前四

5月9日，百度发布ERNIE 5.1，参数量仅为ERNIE 5.0的1/3，却在众包基准上排名全球第四，在中国模型中推理和Agent任务排名第一。这证明了一个趋势：模型不一定越大越好，架构优化和训练策略的进步可以让小模型打大模型。

阿里巴巴同日发布Qwen 3.7 Preview，在LM Arena上文本排名全球第13、视觉排名全球第16，均为中国模型最佳。不过，中国AI人才面临新的限制：5月26日起，阿里和DeepSeek的顶级AI工程师出境需获政府批准。

开源阵营：Mistral和Cohere的双响炮

Mistral AI在5月22日发布Mistral Medium 3.5，128B参数、256K上下文、Apache许可证，还推出了"Vibe"编码Agent。随后Mistral Small 4以119B MoE架构开源，同样256K上下文。

Cohere的Command A+更极端：218B MoE架构开源，仅需2张H100 GPU即可运行，专攻企业场景。当大厂在追参数规模时，Cohere走的是"最小硬件门槛"路线，这对预算有限的企业极有吸引力。

AI编程工具赛道：Cursor估值293亿美元

AI编程工具持续火热。Cursor以293亿美元估值成为赛道独角兽，SpaceX更是拥有以600亿美元收购Cursor的期权。亚马逊也不甘落后，Amazon Quick桌面应用整合了Google Workspace、Zoom、Airtable等，Amazon Connect扩展出4个Agent AI解决方案，覆盖供应链决策和AI招聘。

从模型到工具到应用，5月的AI竞争已经从"谁模型更强"升级为"谁的生态更完整"。单一模型的优势窗口正在缩短，全栈能力才是护城河。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

分类

业界新闻