Thoughtworks 发布宏观报告:AI负载推动基础设施编排转型
作者: -
责任编辑: 宋慧
来源: Thoughtworks
时间: 2025-11-06 10:44
关键字: AI算力,基础设施,研报
浏览: 2295
点赞: 135
收藏: 14
Thoughtworks 发布最新宏观科技趋势报告,指出「AI 工作负载推动基础设施编排转型」以及「上下文工程」正在兴起。以下为全文:
人工智能工作负载需要对基础设施编排方式进行转变
无论难以捉摸的“人工智能泡沫”是否正在破裂,有一点是肯定的:人工智能不再只是一个流行词,它已成为整个科技行业的巨大驱动力。尤其基础设施需求显著增长,因为训练大型语言模型或运行人工智能特征推理通常需要大量的GPU集群,企业发现他们必须以过去只有超级计算才能达到的规模来管理这些GPU。
如今,团队经常会遇到模型规模过大,甚至无法在单个 GPU 上运行的情况,这迫使他们将工作分散到多个加速器上。平台工程团队正在构建复杂的多阶段流水线,并持续优化吞吐量和延迟,以确保这些 AI 工作负载高效运行。一些工具和技术可以帮助他们完成这项工作,例如用于监控分布式 GPU 的开源工具NVIDIA DCGM Exporter和拓扑感知调度。
当前面临的一大挑战是成本。GPU 云实例价格昂贵,而且无论繁忙还是空闲通常都会计费,因此最大限度地利用这些集群至关重要。为此,各组织正在采用更智能的编排策略,以榨取每一分性能和价值。Kubernetes 诞生于无状态 Web 应用领域,事实证明它是解决这些问题的理想方案,能够无缝适应 AI 应用,尤其是在与Kueue等其他库结合使用时。Kubernetes 的最新版本还引入了诸如 GPU 动态资源分配 (DRA) 和更佳的硬件拓扑感知等增强功能。
上下文工程、MCP 和 AI 工作流程的兴起
一方面,基础设施工程师正在寻求优化硬件利用率的方法;另一方面,开发人员仍在努力寻找将人工智能高效集成到工作流程中的最佳途径。一个显著的趋势是从临时提示转向更严谨的上下文工程。本质上,上下文工程指的是精心准备结构化的背景信息并将其输入到人工智能模型中,使其能够可靠地执行任务。这远不止于编写一条巧妙的提示,而是涉及一系列不同的技术和精心规划的步骤,旨在提高模型的可靠性和准确性。在实践中,上下文工程旨在通过向逻辑逻辑模型(LLM)提供最关键的信息来降低其不确定性,从而提高模型的精确度。
模型上下文协议 (MCP)是标准演进过程中有效“控制”上下文的最佳例证。自从我们在第 32 卷中提到 MCP 这个有趣的标准以来,它如今已变得无处不在。MCP 最初由 Anthropic 公司于 2024 年底发布,是一个开源标准,它定义了 AI 客户端(例如智能体或编码助手)如何向 MCP 服务器查询信息或执行操作。服务器可以位于公司 Wiki、数据库或外部 SaaS API 的前端。客户端以标准化的方式向服务器提供所需资源,服务器则代表客户端进行获取或执行操作。这种解耦机制非常强大:这意味着 AI 开发人员可以更快地集成新的工具或数据源,而且 MCP 本身的设计就与供应商无关。业界对 MCP 的接受速度惊人。不到一年时间,我们就看到数千台 MCP 服务器投入使用,为从 GitHub 到 SAP 系统的各种平台搭建了桥梁。可以肯定的是,MCP 的主要贡献者是 AI 代理,除了 MCP 之外,AI 代理还积累了大量的协议来支持其工作流程,例如代理到代理 (A2A)和AG-UI。
人工智能代理是人工智能领域最令人兴奋也最受炒作的进展。从聊天机器人到代理工作流程的转变对组织而言意义重大,因为他们已经意识到静态逻辑模型(LLM)的局限性。模型无法超越其训练数据的局限,因此需要谨慎地运用上下文和提示技巧才能达成目标。相比之下,代理可以获取实时信息并对变化做出反应。我们仍然担心人们对人工智能生成的代码过于自信,因此一些新的实践正在涌现,以降低代理失控的可能性。这些实践涵盖了从简单的文件模式(例如添加AGENTS.md文件)到更复杂的设置(例如将编码代理与参考应用程序关联以及规范驱动开发)等各个方面。
顺便一提,这些新技术并非仅适用于智能体。成熟的AI工作流程已蓬勃发展,服务于整个团队,无论是职能团队还是跨职能团队。大多数代码编辑器都提供了一系列选项,用于共享指令以供多人复用。这实际上允许团队通过一键式AI扩展来共享最佳实践和实用工具,从而帮助规范AI的使用——例如,确保每次代码审查都遵循相同的检查清单,或者为所有开发人员提供一个快速命令来获取更新的库文档。
安全与隐患
随着人工智能技术在行业内的普及,我们开始观察到一些反模式的出现。软件开发中不良实践并非新鲜事,但人工智能的应用却带来了新的问题。虽然大多数问题可以通过严格遵循基本实践来缓解,但及早识别反模式至关重要,以便我们能够及时纠正错误。
我们之前提到过人工智能加速的影子IT,这仍然是一个令人担忧的问题。顾名思义,它类似于传统的影子IT,但由于人工智能能够以非常规的方式连接系统,其规模被大幅提升。例如,一些无代码自动化平台现在允许用户直接集成OpenAI或Anthropic API,这使得人们很容易将人工智能当作“万能胶带”,以IT部门从未批准的方式将系统连接起来。虽然这样做可以快速见效,但也会带来可维护性和安全风险(例如数据泄露或未受监控的进程)。
其他例子包括对现有人工智能技术过于乐观的使用。例如,文本转SQL解决方案在实践中并未达到最初的预期。仅仅依靠语言学习模型(LLM)可靠地生成复杂的SQL查询可能会适得其反,它们通常需要人工验证,并且难以处理极端情况。这并不意味着这种理念已经过时,但团队已经学会了让人工参与其中,或者在有限的范围内使用此类工具。
通过密切关注新兴的反模式,技术领导者可以避免因过度炒作而带来的陷阱。其核心信息在于平衡——积极利用人工智能日益增强的能力,但同时也要结合周密的工程实践、开放的生态系统以及适度的人类判断。这才能确保人工智能真正提升团队的生产力和创造力,而不是将团队引入充斥着权宜之计和隐患的迷宫。
以灵活且明智的策略应对挑战
科技行业向来不乏变革。云计算改变了我们的工作和生活方式,此后又经历了多次浪潮。每一次新技术的出现,都会带来新的挑战,我们也意识到自身的流程和思维方式必须与时俱进。人工智能也不例外。抛开各种炒作和悲观论调,人工智能不过是我们工具箱中的又一个组成部分,尽管它确实引起了不小的轰动。能够成功驾驭这股浪潮的公司,将会是那些以务实态度投资于核心基本面的公司。通过理解这些趋势的意义和影响,我们就能做出更明智的决策,而不是被动地等待未来发生改变。