Google开源DiffusionGemma：文本扩散模型推理速度比传统LLM快4倍

作者： CBISMB

责任编辑：邹大斌

来源： CBISMB

时间： 2026-06-11 10:59

关键字：开源，Google ，MoE ，DiffusionGemma ，文本扩散

点赞： 529

收藏： 68

Google今日发布了DiffusionGemma，一款基于新兴文本扩散方法的大型语言模型。官方表示，该模型生成文本的速度比传统LLM快四倍，同时运行时占用更少内存，甚至能在高端消费级显卡上流畅运行。

技术原理：从图像扩散到文本扩散

DiffusionGemma的文本扩散架构源自AI图像生成方法。图像扩散工作流程从一张充满高斯噪声的模糊照片开始，模型逐步去除噪声，分析增强后的照片，再利用结果恢复更多像素，如此反复直到生成可用图像。

对应到文本领域，当DiffusionGemma接收提示词时，它会先生成一个由随机词语组成的占位响应，再将部分随机文本替换为构成答案的实际词语，然后审查编辑结果并生成更多词语，如此循环直到完成响应。

并行生成256个token

传统LLM每次生成一个token，而DiffusionGemma的文本扩散架构能一次并行生成256个token，这正是其速度快于传统LLM的根本原因。Google表示，在单张NVIDIA H100服务器级GPU上，DiffusionGemma每秒可生成超过1000个token；在桌面级GeForce RTX 5090上，每秒可生成超过700个token。

混合专家架构降低内存占用

DiffusionGemma能在消费级GPU上运行的另一个原因在于其混合专家（MoE）架构。该模型总计260亿参数，但回答提示时仅激活其中38亿个，从而显著降低内存占用。此外，模型还通过将信息保存为轻量级数据格式NVFP4来进一步减少RAM消耗。

DiffusionGemma基于Google今年四月发布的Gemma 4 26B A4B模型，但替换了注意力机制——新模块不仅通过分析前文推断词义，同时也会审查给定词语之后的文本。Google研究科学家Brendan O'Donoghue和Sebastian Flennerhag在官方博客中表示："尽管AI研究界多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍是一项挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一局面。"

目前DiffusionGemma已在Hugging Face上以开源许可证发布。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

Google开源DiffusionGemma：文本扩散模型推理速度比传统LLM快4倍

相关推荐

智库专家

解决方案