让任意模型,任意加速器运行在任意云上:开源创新解锁企业AI

作者:

CBISMB

责任编辑:

贾西贝

来源:

ISMB

时间:

2025-06-11 10:47

关键字:

红帽 开源 AI

作者:Chris Wright

让任何工作负载,任何应用运行在任何地方是2023红帽全球峰会的口号。过去两年,IT领域发生了一些变化。但红帽的愿景没有改变,并且还在不断演进。

“让任意模型,任意加速器运行在任意云上。”

这就是AI时代的混合云主旨。最棒的是,与“旧的”混合云一样,这一切都由开源创新推动。在2025红帽全球峰会上,我们展示了围绕开源和开放模型构建的AI生态系统如何为企业带来新的选择。开放带来选择,选择带来更大的灵活性——从最符合企业需求的模型,到下层的加速器,再扩展到工作负载的实际运行地点。成功的AI战略会“跟着数据走”,无论数据位于混合云的何处。

那么,是什么在驱动混合云的发展?答案是开源。

推理让AI更智能

在我看来,我们需要开始超越模型。是的,模型对AI战略至关重要。但没有推理,即AI的“执行”阶段,模型只是无法“做”任何事情的数据集合。推理决定了模型对用户输入的响应速度,以及在加速计算资源上做出决策的效率——响应缓慢和效率低下最终会导致成本增加和客户信任流失。

我很高兴红帽把推理放在了开源AI工作的核心位置,并且推出了红帽AI推理服务器。红帽AI推理服务器基于领先的开源vLLM项目,并通过Neural Magic的技术进行增强,为AI部署提供了一个受支持的、覆盖整个生命周期的、生产就绪的推理服务器。最重要的是,它可以真正地“紧跟数据”,无论数据位于何处——任意Linux平台、任意Kubernetes发行版,无论是红帽还是其他平台,都可以与该解决方案配合使用。

企业AI之上:大规模企业AI

企业IT的杀手级应用不是某个单一、统一的工作负载或新的云服务,而是能够快速、高效地扩展的能力。这对于AI同样适用。但AI有个特性,即支撑AI工作负载的加速计算资源也需要扩展。这绝非易事,正确实施此类硬件需要高昂的成本和专业技能。

我们需要的不仅仅是扩展AI的能力,还要将大量的AI工作负载分布到多个加速计算集群中。推理模型和代理AI所需的推理时间扩展进一步加剧了这一难题。通过分摊压力,可以减少性能瓶颈,提高效率,并最终改善用户体验。红帽已采取行动,通过开源的llm-d项目来应对这一痛点。

llm-d项目由红帽领导,并且得到了硬件加速、模型开发和云计算领域的AI行业领导者的支持。该项目将Kubernetes编排经过验证的强大功能与vLLM相结合,将两个开源领域的领先力量结合在一起,以满足一个非常现实的需求。借助AI感知网络路由、KV缓存卸载等技术,llm-d实现了AI推理的去中心化和普及化,帮助企业更加充分地利用计算资源,同时实现更具成本效益和高效的AI工作负载。

开放(开源)助力AI未来

Llm-d和vLLM(由红帽AI推理服务器提供)是开源技术,解决当前企业AI面临的挑战。但上游社区并不只关注当前需要做的事情。AI技术具有缩短时间跨度的特质——创新步伐日新月异,您认为几年后才会面临的挑战,可能突然就必须迎头赶上。

这就是为什么红帽致力于在Meta领导的Llama Stack项目中投入资源进行上游开发,从而为生成式AI应用生命周期提供标准化的构建模块和API。此外,Llama Stack非常适合构建代理AI应用,即我们今天所看到的强大生成式AI工作负载的进一步发展。除了上游之外,我们还将在红帽AI中提供Llama Stack的开发者预览版,为那些希望立即参与构建行业未来的企业提供支持。

在AI代理领域,我们目前仍缺乏一个通用协议,用以支持其他应用如何向其提供上下文和信息。这就是模型上下文协议(MCP)的用武之地。该协议由Anthropic于2024年末开发并开源,为代理与应用之间的交互提供了标准化协议,类似于传统计算中的客户端-服务器协议。但关键的是,现在应用一下就能具备AI能力,而无需进行大规模重新开发。这意义非凡,如果没有开源的力量,这是不可能实现的。与Llama Stack一样,MCP在红帽AI平台上以开发者预览版提供。

专有的AI模型或许曾在早期占据领先地位,但开放生态系统如今无疑已后来居上,尤其是在支持这些下一代AI模型的软件领域。通过vLLM和llm-d,以及强化的企业开源产品,无论采用何种模型、加速器或云,AI的未来都一片光明。而开源和红帽将为其提供支持。