
黄仁勋在Computex 2026上扔了个大炸弹——Nemotron 3 Ultra,5500亿参数的完全开源大模型。不是那种"开源但限制商业用途"的假开源,是真正可以随便用的那种。这事儿在AI圈炸了锅,因为英伟达这次不只是造芯片,而是亲自下场做模型了,而且一出手就是美国最大的开源模型。
5500亿参数只激活550亿:混合架构的效率革命
先说最核心的架构创新。Nemotron 3 Ultra总参数5500亿(550B),但每次推理只激活550亿(55B)参数,稀疏率高达90%。这靠的是英伟达独创的LatentMoE技术——先把token压缩到低维潜在空间,再路由到不同的专家模块。同样推理成本下,LatentMoE能支持4倍的专家数量,等于用同样的钱干了4倍的活。
更绝的是,这个模型没走纯Transformer老路,而是搞了个Mamba-2和Transformer的混搭架构。Mamba层负责长上下文的高效序列建模,线性时间复杂度,处理100万token的长文档不费劲;Transformer层负责需要精确注意力的地方,比如代码操作和数学推理。两种层各司其职,配合得相当巧妙。
再加上多Token预测(MTP)技术,一次前向传播就能预测多个未来token,既提升了思维链的连贯性,又内置了推测解码加速推理。三招组合下来,实测推理速度超过300 tokens每秒,比同规模的中国开源模型快3到6倍,比GLM-4.5-355B吞吐量高出5倍。
十大教师模型轮番调教:MOPD蒸馏到底有多猛
训练方法上英伟达也没走寻常路。他们搞了个叫MOPD(多教师在线策略蒸馏)的东西,用10个以上的专业教师模型同时调教学生模型。每个教师在各自的领域打分——法律、代码、数学、知识推理……学生生成内容,教师评分,学生再根据反馈优化,全程异步流水线化。
更有意思的是,学生和教师是共同进化的。优化后的学生模型会启动新一轮教师训练,然后合并到下一轮MOPD中。这种迭代式训练让模型在跨领域推理上越来越强。训练数据方面,英伟达投了4B token的合成法律数据(LegalBench从64.6%提到74.7%)、350亿token的合成Wiki数据(SimpleQA从40.2%提到50.2%)、173B token的最新GitHub代码数据,加上1000万新SFT样本和100万新RL任务,可以说下了血本。
智能指数48分:美国开源第一,但中国Kimi K2.6更猛
成绩单拿出来也很能打。Artificial Analysis智能指数评估48分,美国开源模型最高分,比OpenAI的gpt-oss-120b的33分高出一大截。在PinchBench(智能体生产力)上拿到91%,企业运筹规划40%,指令遵循82%,专业搜索56%——全是第一梯队。
但必须说实话,这成绩放到全球看还不够看。中国月之暗面的Kimi K2.6拿到了54分,1T总参数、32B活跃参数的MoE架构,比Nemotron 3 Ultra高了6分。更不用说Claude Opus 4.7、Gemini 3.1 Pro和GPT-5.4这些闭源大佬都是57分。英伟达虽然是美国开源之王,但在中国开源模型面前还是差了一个身位。
另外目前发布的还只是基础预训练检查点,没有经过指令调优和RLHF对齐,直接当助手用是不行的。英伟达说完整版本周会放出,但Nemotron 3 Super从基础模型到可用版花了三个月,Ultra能不能更快还不好说。
NVFP4精度:一张检查点跑遍三代GPU
部署方面有个很有意思的技术叫NVFP4。英伟达搞了个专用的NVFP4量化内核,让同一份模型检查点可以在Hopper、Blackwell和Ampere三代GPU架构上跑。这在之前是不可能的——不同架构得用不同的量化版本,运维成本很高。现在一份检查点走天下,部署复杂度直接降了一档。
在Blackwell GPU上,NVFP4相比BF16提供了最高5倍的每GPU吞吐量提升。不过这个优势和英伟达硬件深度绑定,在非英伟达GPU上推理效率可能明显下降,对受GPU出口管制影响的地区和中小团队来说是个实际限制。
为智能体而生:不是聊天机器人,是AI打工仔
最值得关注的是Nemotron 3 Ultra的设计理念——它不是为聊天优化的,而是为智能体(Agent)优化的。英伟达用了全球最大的长期运行智能体数据集之一来训练,覆盖智能体规划、工具调用、读取观察结果、委托子智能体、验证输出、多轮错误恢复这六大核心能力。
SWE-bench上的验证得分在65%到70.4%之间,智能体任务成本降低30%。配套还有4B参数的Content Safety护栏模型(覆盖23个安全类别和12种语言)和Nemotron 3.5 ASR语音识别模型(40+语言、延迟低于100ms),直接给你一个从语音输入到安全输出的完整智能体解决方案。
英伟达这次的动作信号很明确:AI的下一个战场不是谁的模型更大,而是谁的智能体能干更多活。Nemotron 3 Ultra用5500亿参数和五项黑科技告诉你,开源模型也能做智能体的底座,而且速度和成本都很有竞争力。但别忘了Kimi K2.6还在前面等着,这场中美开源模型竞赛才刚刚开始。
暂无评论数据
发布
相关推荐
15
0
90
0
47
0
355
0
1052
0三元桥David
我还没有写个人简介......
帖子
提问
粉丝
ChatGPT告别聊天时代:Codex正式并入,近10亿人一夜喜提AI超级应用
2026-06-08 14:41:41 发布ChatGPT跌至54.7%,Claude暴涨306%:AI聊天机器人市场正在重新洗牌
2026-06-08 13:30:26 发布
京公网安备:11010502051901号