谷歌发布Gemma 4 12B模型:无需编码器,可在本地运行多模态任务

作者: CBISMB

责任编辑: 曹新玲

来源: CBISMB

时间: 2026-06-04 13:44

浏览: 0

点赞: 0

收藏: 0

谷歌近日正式推出最新统一多模态模型Gemma 4 12B。这款模型最大的特点在于,它摒弃了传统外置独立视觉/音频编码器架构,模态特征变换内嵌至主干网络,直接处理视觉和音频数据,显著降低了硬件门槛。

取消编码器,架构更精简

传统多模态模型通常需要独立的视觉编码器和音频编码器,将图像和声音分别转换后再进行处理。Gemma 4 12B则采用了不同的技术路线。在视觉处理方面,它使用轻量级嵌入层替代传统编码器,仅需一次矩阵乘法、位置嵌入和归一化操作即可完成处理,大幅降低了计算复杂度。在音频处理方面,信号被直接映射到文本token的维度空间,省去了专用音频编码器的需求。

这种无编码器设计带来的直接好处是推理时的计算步骤减少、模型体积更轻量。据谷歌公布的信息,Gemma 4 12B仅需16GB显存或统一内存即可运行,这意味着用户可以在高端笔记本电脑上实现本地部署,无需依赖云端计算资源。

性能接近更大规模模型

在性能方面,Gemma 4 12B的表现接近谷歌此前发布的26B MoE(混合专家)模型的水平,在多项基准测试中展现了出色的多步推理能力和代理工作流处理能力。此外,该模型还搭载了Multi-Token Prediction(MTP)drafters技术,能够同时预测多个token,从而加快推理速度。

谷歌方面透露,Gemma 4全系含社区衍生模型累计下载量已突破1.5亿次,反映出开发者社区对这一开源模型系列的关注度持续走高。

开源生态与部署支持

Gemma 4 12B采用Apache 2.0许可证进行开源,权重文件已在Hugging Face和Kaggle等平台上线。模型支持多种主流推理框架,包括LM Studio、Ollama、MLX、SGLang和vLLM等。针对端侧部署场景,谷歌自家的AI Edge Gallery也提供了相应支持。对于需要大规模生产环境部署的开发者,可以通过谷歌云平台的Model Garden、Cloud Run和GKE等服务进行配置。


©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。