超越资本支出:弥合人工智能数据中心的能效差距
作者: CBISMB
责任编辑: 贾西贝
来源: CBISMB
时间: 2026-05-12 15:16
浏览: 0
点赞: 0
收藏: 0

伟创力首席执行官, Revathi Advaith
人工智能正在重塑世界,数据中心是其动力命脉。
如今的数据中心远不止是服务器集群,它们是支撑医疗、生产力乃至国家安全领域取得重大突破的核心基础设施。而算力需求正远超供应,基础设施升级往往耗时数年。问题显而易见:目前,电网无法跟上创新与电力需求呈指数级增长的速度。
我们可以直观感受这一变化的规模:几年前,一台机架功耗仅数千瓦,与一组家用电器的能耗相当。而如今,在AI 集群中,单机架功耗通常达到了数十千瓦,高密度部署则会达到数百千瓦。
兆瓦级部署已近在眼前。到 2030 年,全球数据中心需求预计增至三倍,能源效率提升至关重要。能效的提升将决定数十亿美元的资本支出,究竟是转化为可用算力,还是沦为搁浅投资。
电力去向:确立基准线
要规划通往更高能效的路径,首先要清楚掌握数据中心的能耗分布。数据中心运营方需全面考量从电网到芯片的电力与冷却基础设施,并关注引发能效损耗的附加成本(即下文“其他” 类别)。高密度 AI 负载会同时提高冷却与算力需求。
– 图源Thinkstock / Yelantsevv
算力设备,约40%
AI 训练集群密度高、功耗大。单个 GPU 节点在满负载工况下功耗可达数千瓦。服务器电源管理、处理器能效与负载优化,对实现能耗精细化管控至关重要。
冷却系统,约40%
为高密度机架散热的机械冷却(暖通空调)系统、冷水机组及风扇会消耗大量电力。应对不同场景的能耗需求时,如AI训练的能耗需求,运营方常出现冷却资源过度配置的情况。冷却是提升能效的最大突破口。
其他,约20%
内部电力调节系统、网络与存储设备,以及照明系统,构成了数据中心剩余的能耗部分。
电源使用效率(PUE)是行业通用衡量指标,它是指数据中心总能耗与 IT 设备能耗的比值。例如, 电源使用效率为1.5是指是在 IT 负载能耗基础上,额外附加能耗占 50%。当前,超大规模数据中心的电源使用效率普遍在 1.04–2.0 之间,但若冷却与电力转换环节无法持续优化,AI 驱动的负载将会提高这一数值。
数据中心规模扩大将加剧能效损耗
对于最终财务利润而言,能效下降 1 个百分点听起来微不足道。但对超大规模数据中心来说,其影响却不容小觑。 若一座100 兆瓦的数据中心的电价为每千瓦时 0.12 美元,能效每提升 1%,每年便可节省 100 万美元运营成本。在全球数据中心集群中,效益还会成倍放大。
除运营成本外,低能效还会对资本投资产生长期影响。如果数据中心运营方为弥补电力损耗而过度扩建容量,即便这些电力基础设施、制冷系统及其他前期设施并未被充分利用,相关成本也会随之增加。与之相反,高能效设计能在单位面积内提供更强算力,既能加快部署速度,又提升了投资回报率。
– 图源Getty Images
通过能效优化,降低运营成本,提升 IT 资源利用率
能效提升不仅有助于节能,同时可以加强运营灵活性、打造竞争优势。布局电力能效优化是关键的盈利抓手,也是建设高性价比数据中心的核心策略。
更智能的电力与冷却方案有助于运营方实现每瓦算力最大化,提升利润空间。新能源发电与输电项目周期漫长,且大多不在运营方可控范围内,但能效升级则可快速落地实施:
先进冷却系统—— 高密度 AI 集群的单机架功耗可达 20kW 至 100kW,兆瓦级机架也即将投入应用。常规风冷无法匹配其产热散热需求,而直接芯片液冷的散热效率会大幅更高,同时智能控制系统还可根据负载需求动态调节冷却强度。
最优电力转换—— 高压直流配电、固态变压器等先进电力架构可以减少电力转换环节与损耗。高效不间断电源(UPS)系统、适配容量的机柜配电单元(PDU),能有效避免电能闲置的浪费以及无法转化为有效算力。
调试验收—— 落地执行环节尤为关键。对IT 基础设施、电力、机械及控制系统进行上线前的测试与验证,可避免控制系统调试不当、参数设定错误等问题,杜绝造成长期不必要的能耗。严格的调试验收流程对实现目标 PUE 值至关重要。
AI 辅助运维——AI 技术提供助力。机器学习算法可以实时预测热负荷、调节气流、全局优化硬件资源配置,在性能、能效与能耗间实现平衡,持续挖掘可规模化落地的增量收益。
行业协同至关重要
电力接入周期漫长、电网基础设施老旧以及容量不足的问题,使得单纯依赖电网扩容成为一种高风险策略。如果能效难以大幅提升,数据中心的发展将持续受到电力供应的限制。在人工智能时代,这对运营方以及企业的竞争力与经济增长会产生重要影响。
企业难以能独自弥合能效差距,其涉及算力、基础设施、电力电子、冷却技术以及电网接入等多个领域。
分享最佳实践方案、制定开放标准,能够在整个生态中加速创新、推动能效提升技术落地。这正是开放计算项目(OCP)等行业联盟存在的重要意义。
在该框架下中,许多超大规模数据中心运营方正携手合作,在人工智能的超高负载场景下重新定义数据中心基础设施。从高压直流配电,到解耦式辅助电源机柜,再到先进液冷技术的集成,他们正推动数据中心运行模式实现战略性转变。规模化运用此类创新将节省数百万美元的能源成本。
分享最佳实践并制定开放标准,能够加速创新,并推动整个生态系统对能效技术的采纳与应用:
未来方向清晰明确:在电网约束日益严峻的当下,能效提升成为必然。这是新一轮人工智能创新活力与盈利能力的关键。实现发展目标固然需要容量保障,也同样需要精细化管理与持续优化的严谨思路。为了实现长期性能与利润,运营方需做到:
从源头进行能效设计: 每一度电都至关重要,能效损耗会快速累积放大。
投资先进电力与冷却方案: 部署先进液冷技术、高效电力转换系统及人工智能驱动的控制系统,优化能源使用。
严格开展调试验收:确保基础设施设计与实际运行匹配,避免不必要的成本与能效损耗。
推动全行业协同合作:通过开放计算项目等平台,支持开放标准与联合创新,实现共赢发展。
对数据中心而言,电力能效是可持续增长的基石。能否充分发挥 AI 基础设施的全部价值,关键就在能效。弥合能效差距不只是优秀工程技术的考量,更是明智的商业决策。