Google开源DiffusionGemma:文本扩散模型推理速度比传统LLM快4倍

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-06-11 10:59

关键字: 开源 Google MoE DiffusionGemma 文本扩散

浏览: 0

点赞: 0

收藏: 0

Google今日发布了DiffusionGemma,一款基于新兴文本扩散方法的大型语言模型。官方表示,该模型生成文本的速度比传统LLM快四倍,同时运行时占用更少内存,甚至能在高端消费级显卡上流畅运行。

技术原理:从图像扩散到文本扩散

DiffusionGemma的文本扩散架构源自AI图像生成方法。图像扩散工作流程从一张充满高斯噪声的模糊照片开始,模型逐步去除噪声,分析增强后的照片,再利用结果恢复更多像素,如此反复直到生成可用图像。

对应到文本领域,当DiffusionGemma接收提示词时,它会先生成一个由随机词语组成的占位响应,再将部分随机文本替换为构成答案的实际词语,然后审查编辑结果并生成更多词语,如此循环直到完成响应。

并行生成256个token

传统LLM每次生成一个token,而DiffusionGemma的文本扩散架构能一次并行生成256个token,这正是其速度快于传统LLM的根本原因。Google表示,在单张NVIDIA H100服务器级GPU上,DiffusionGemma每秒可生成超过1000个token;在桌面级GeForce RTX 5090上,每秒可生成超过700个token。

混合专家架构降低内存占用

DiffusionGemma能在消费级GPU上运行的另一个原因在于其混合专家(MoE)架构。该模型总计260亿参数,但回答提示时仅激活其中38亿个,从而显著降低内存占用。此外,模型还通过将信息保存为轻量级数据格式NVFP4来进一步减少RAM消耗。

DiffusionGemma基于Google今年四月发布的Gemma 4 26B A4B模型,但替换了注意力机制——新模块不仅通过分析前文推断词义,同时也会审查给定词语之后的文本。Google研究科学家Brendan O'Donoghue和Sebastian Flennerhag在官方博客中表示:"尽管AI研究界多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍是一项挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一局面。"

目前DiffusionGemma已在Hugging Face上以开源许可证发布。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。