Google开源DiffusionGemma:文本扩散模型推理速度比传统LLM快4倍
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-06-11 10:59
关键字: 开源 ,Google ,MoE ,DiffusionGemma ,文本扩散
浏览: 0
点赞: 0
收藏: 0
Google今日发布了DiffusionGemma,一款基于新兴文本扩散方法的大型语言模型。官方表示,该模型生成文本的速度比传统LLM快四倍,同时运行时占用更少内存,甚至能在高端消费级显卡上流畅运行。
技术原理:从图像扩散到文本扩散
DiffusionGemma的文本扩散架构源自AI图像生成方法。图像扩散工作流程从一张充满高斯噪声的模糊照片开始,模型逐步去除噪声,分析增强后的照片,再利用结果恢复更多像素,如此反复直到生成可用图像。
对应到文本领域,当DiffusionGemma接收提示词时,它会先生成一个由随机词语组成的占位响应,再将部分随机文本替换为构成答案的实际词语,然后审查编辑结果并生成更多词语,如此循环直到完成响应。
并行生成256个token
传统LLM每次生成一个token,而DiffusionGemma的文本扩散架构能一次并行生成256个token,这正是其速度快于传统LLM的根本原因。Google表示,在单张NVIDIA H100服务器级GPU上,DiffusionGemma每秒可生成超过1000个token;在桌面级GeForce RTX 5090上,每秒可生成超过700个token。
混合专家架构降低内存占用
DiffusionGemma能在消费级GPU上运行的另一个原因在于其混合专家(MoE)架构。该模型总计260亿参数,但回答提示时仅激活其中38亿个,从而显著降低内存占用。此外,模型还通过将信息保存为轻量级数据格式NVFP4来进一步减少RAM消耗。
DiffusionGemma基于Google今年四月发布的Gemma 4 26B A4B模型,但替换了注意力机制——新模块不仅通过分析前文推断词义,同时也会审查给定词语之后的文本。Google研究科学家Brendan O'Donoghue和Sebastian Flennerhag在官方博客中表示:"尽管AI研究界多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍是一项挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一局面。"
目前DiffusionGemma已在Hugging Face上以开源许可证发布。