IBM发布Granite 4系列Mamba-Transformer混合语言模型

作者: CBISMB

责任编辑: 邹大斌

来源: ISMB

时间: 2025-10-06 10:18

关键字: IBM,大模型,Granite 4,开源大模型

浏览: 2331

点赞: 119

收藏: 14

IBM公司周四开源了Granite 4系列语言模型,这是一组融合了两种不同神经网络架构元素的新一代人工智能模型。

该模型系列在发布时包含四个不同规模的模型,参数量从30亿到320亿不等。IBM声称,这些模型在更少内存消耗的情况下,性能优于同等规模的其他模型。

该系列中最小的模型之一——Granite-4.0-Micro,基于目前大多数大语言模型所采用的Transformer架构。该架构的核心是其所谓的“注意力机制”,它使大语言模型能够分析一段文本,识别其中最重要的句子,并在决策过程中优先处理这些内容。

其余三款Granite 4模型则将注意力机制与基于Mamba神经网络架构的处理组件相结合。Mamba是一种新兴的Transformer替代方案,其主要优势在于更高的硬件效率。

与Transformer模型类似,Mamba也能识别提示词(prompt)中最重要的数据片段,并据此调整处理方式。不同之处在于,Mamba并非使用注意力机制,而是采用一种名为“状态空间模型”(state space model)的数学结构——这种结构最初用于计算航天器飞行轨迹等任务。

Transformer架构的注意力机制在处理长文本提示时需要大量内存。每当提示长度翻倍,注意力机制的内存占用便会增至四倍。相比之下,Mamba模型仅需极小部分内存,从而显著降低了推理(inference)成本。

Granite 4系列基于Mamba架构的最新版本Mamba-2,该版本于去年初首次推出。Mamba-2将其核心技术组件压缩至约25行代码,使其能够在部分任务中比原始版本更高效地运行,所需硬件资源更少。

该系列最先进的模型Granite-4.0-H-Small拥有320亿参数,并采用“专家混合”(mixture-of-experts)设计,在响应提示时仅激活其中90亿参数。IBM设想开发者可将该模型用于处理客户支持请求等任务。

系列中的另外两款Mamba-Transformer混合模型——Granite-4.0-H-Tiny和Granite-4.0-H-Micro,分别拥有70亿和30亿参数,专为对延迟敏感的应用场景设计,优先考虑响应速度而非极致的处理精度。

IBM在一项内部基准测试中比较了Granite-4.0-H-Tiny与其上一代模型Granite 3.3 8B的内存需求。结果显示,前者仅需15GB内存,仅为后者所需内存的六分之一。IBM表示,新模型在输出质量方面也有所提升。

IBM员工在一篇博客文章中写道:“尽管新的Granite混合架构提升了模型训练的效率与效果,但模型准确性的大部分提升主要来自于我们在训练(及训练后优化)方法上的进步,以及Granite训练数据语料库的持续扩展与精细化。”

目前,Granite 4系列可通过IBM的watsonx.ai平台获取,同时也在Hugging Face等六个以上第三方平台上线。未来,IBM计划将这些模型引入Amazon SageMaker JumpStart和Microsoft Azure AI平台。此外,公司还计划进一步扩充Granite 4产品线,推出具备更强推理能力的新算法。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。