英伟达甩出5500亿参数开源王炸:Nemotron 3 Ultra五大黑科技拆解,AI智能体时代真来了
头像 三元桥David 2026-06-08 16:11:26    发布
0 浏览 0 点赞 0 收藏

黄仁勋在Computex 2026上扔了个大炸弹——Nemotron 3 Ultra,5500亿参数的完全开源大模型。不是那种"开源但限制商业用途"的假开源,是真正可以随便用的那种。这事儿在AI圈炸了锅,因为英伟达这次不只是造芯片,而是亲自下场做模型了,而且一出手就是美国最大的开源模型。

5500亿参数只激活550亿:混合架构的效率革命

先说最核心的架构创新。Nemotron 3 Ultra总参数5500亿(550B),但每次推理只激活550亿(55B)参数,稀疏率高达90%。这靠的是英伟达独创的LatentMoE技术——先把token压缩到低维潜在空间,再路由到不同的专家模块。同样推理成本下,LatentMoE能支持4倍的专家数量,等于用同样的钱干了4倍的活。

更绝的是,这个模型没走纯Transformer老路,而是搞了个Mamba-2和Transformer的混搭架构。Mamba层负责长上下文的高效序列建模,线性时间复杂度,处理100万token的长文档不费劲;Transformer层负责需要精确注意力的地方,比如代码操作和数学推理。两种层各司其职,配合得相当巧妙。

再加上多Token预测(MTP)技术,一次前向传播就能预测多个未来token,既提升了思维链的连贯性,又内置了推测解码加速推理。三招组合下来,实测推理速度超过300 tokens每秒,比同规模的中国开源模型快3到6倍,比GLM-4.5-355B吞吐量高出5倍。

十大教师模型轮番调教:MOPD蒸馏到底有多猛

训练方法上英伟达也没走寻常路。他们搞了个叫MOPD(多教师在线策略蒸馏)的东西,用10个以上的专业教师模型同时调教学生模型。每个教师在各自的领域打分——法律、代码、数学、知识推理……学生生成内容,教师评分,学生再根据反馈优化,全程异步流水线化。

更有意思的是,学生和教师是共同进化的。优化后的学生模型会启动新一轮教师训练,然后合并到下一轮MOPD中。这种迭代式训练让模型在跨领域推理上越来越强。训练数据方面,英伟达投了4B token的合成法律数据(LegalBench从64.6%提到74.7%)、350亿token的合成Wiki数据(SimpleQA从40.2%提到50.2%)、173B token的最新GitHub代码数据,加上1000万新SFT样本和100万新RL任务,可以说下了血本。

智能指数48分:美国开源第一,但中国Kimi K2.6更猛

成绩单拿出来也很能打。Artificial Analysis智能指数评估48分,美国开源模型最高分,比OpenAI的gpt-oss-120b的33分高出一大截。在PinchBench(智能体生产力)上拿到91%,企业运筹规划40%,指令遵循82%,专业搜索56%——全是第一梯队。

但必须说实话,这成绩放到全球看还不够看。中国月之暗面的Kimi K2.6拿到了54分,1T总参数、32B活跃参数的MoE架构,比Nemotron 3 Ultra高了6分。更不用说Claude Opus 4.7、Gemini 3.1 Pro和GPT-5.4这些闭源大佬都是57分。英伟达虽然是美国开源之王,但在中国开源模型面前还是差了一个身位。

另外目前发布的还只是基础预训练检查点,没有经过指令调优和RLHF对齐,直接当助手用是不行的。英伟达说完整版本周会放出,但Nemotron 3 Super从基础模型到可用版花了三个月,Ultra能不能更快还不好说。

NVFP4精度:一张检查点跑遍三代GPU

部署方面有个很有意思的技术叫NVFP4。英伟达搞了个专用的NVFP4量化内核,让同一份模型检查点可以在Hopper、Blackwell和Ampere三代GPU架构上跑。这在之前是不可能的——不同架构得用不同的量化版本,运维成本很高。现在一份检查点走天下,部署复杂度直接降了一档。

在Blackwell GPU上,NVFP4相比BF16提供了最高5倍的每GPU吞吐量提升。不过这个优势和英伟达硬件深度绑定,在非英伟达GPU上推理效率可能明显下降,对受GPU出口管制影响的地区和中小团队来说是个实际限制。

为智能体而生:不是聊天机器人,是AI打工仔

最值得关注的是Nemotron 3 Ultra的设计理念——它不是为聊天优化的,而是为智能体(Agent)优化的。英伟达用了全球最大的长期运行智能体数据集之一来训练,覆盖智能体规划、工具调用、读取观察结果、委托子智能体、验证输出、多轮错误恢复这六大核心能力。

SWE-bench上的验证得分在65%到70.4%之间,智能体任务成本降低30%。配套还有4B参数的Content Safety护栏模型(覆盖23个安全类别和12种语言)和Nemotron 3.5 ASR语音识别模型(40+语言、延迟低于100ms),直接给你一个从语音输入到安全输出的完整智能体解决方案。

英伟达这次的动作信号很明确:AI的下一个战场不是谁的模型更大,而是谁的智能体能干更多活。Nemotron 3 Ultra用5500亿参数和五项黑科技告诉你,开源模型也能做智能体的底座,而且速度和成本都很有竞争力。但别忘了Kimi K2.6还在前面等着,这场中美开源模型竞赛才刚刚开始。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。
分类
AI资讯

暂无评论数据

加载中...

发布

头像

三元桥David

我还没有写个人简介......

42

帖子

0

提问

2

粉丝

关注
热门推荐
地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除

京ICP备:2022009079号-2

京公网安备:11010502051901号

ICP证:京B2-20230255