企业如今如何使用云?
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-06-02 13:48
浏览: 0
点赞: 0
收藏: 0
在经历了15年广泛的云采用之后,清晰的项目类别已经浮现,每个类别都有特定的教训,这些教训决定了项目是成功还是遭遇代价高昂的失望。
在过去十五年里,云计算已成为一项基础性技术。它起源于租用服务器的方式,但已演变成一个复杂的生态系统,支持从基础的基础设施迁移,到变革性的AI计划等一切事务。多年来,我为成千上万个企业云项目提供过咨询,我注意到大多数项目都落入少数几个类别中。项目的成功与否,与其说是取决于炒作,不如说更多地取决于对每个项目性质、风险、成本和教训的理解。
云迁移
企业继续将现有工作负载从数据中心迁移到公有云、私有云或混合云环境中。这可能涉及重新托管(直接迁移)、进行少量修改的重构,或将完整重构为云原生架构。其目标通常是降低成本、提高可扩展性或结束硬件更新周期。
这里的风险已有详细记录。许多项目低估了依赖关系,导致性能意外或集成失败。数据传出费用和意外的运营成本可能会抵消预期的节省。
成本状况差异很大。由于发现差距和测试,初始迁移的预算通常会超出20%到50%。通过合理配置和预留实例,持续费用可能会下降,但管理不善通常会导致25%到35%的资源因闲置而浪费。这些教训强调了在前期对总拥有成本(TCO)进行建模的重要性,包括人员、培训和变更管理。
单纯的直接迁移很少能实现承诺的投资回报率。成功的组织将迁移视为现代化的机会,而不仅仅是简单的搬迁。分阶段的方法,配合强有力的治理和FinOps(云财务运营)实践,可以最大限度地减少超支,而这在历史上困扰着大多数努力。
云原生应用
团队在Kubernetes、AWS Lambda或Azure Functions等平台上构建微服务、无服务器函数或容器化应用。这种方法利用了弹性、DevOps流水线和托管服务,以加速上市时间。
风险集中在架构复杂性和技能差距上。过度设计(微服务过多)会带来运维噩梦,而设计不足则会导致无法扩展的单体应用。分布式系统需要持续的安全警惕。新应用通常开始得很好,但当团队优先考虑功能而非可观察性和弹性时,就会积累技术债务。入门成本是基于使用的,听起来很有吸引力,但由于设计不佳,通常在大规模时会激增。
成功的团队在CI/CD中嵌入成本意识,战略性地使用竞价实例,并从第一天起就为可观察性进行设计。云原生开发在与有纪律的架构相结合时,可以加速创新。
业务分析项目
企业正在将数据湖、数据仓库和ETL流程迁移到Snowflake、BigQuery或Redshift等服务上。大规模的实时分析、仪表盘和预测建模成为可能。
主要风险是数据引力和质量问题。移动PB级数据既昂贵又复杂,而糟糕的治理会导致合规性头痛或"垃圾进,垃圾出"的结果。与遗留系统的集成通常会延迟价值的实现。集中的数据策略优于碎片化的策略,但前提是必须配合强大的数据网格或数据编织方法,以尊重领域所有权。
人工智能项目
人工智能和机器学习项目代表了云的当前前沿。这包括训练模型、部署推理端点以及将机器学习集成到应用中。托管服务降低了门槛,但定制需求通常需要GPU集群或专用硬件。
风险是巨大的:模型漂移、可解释性问题、高计算需求和伦理问题。许多项目在概念验证后停滞不前,因为生产部署暴露了可扩展性或成本问题。供应商提供的托管AI服务有所帮助,但企业在将其集成到核心业务流程时仍然举步维艰。
AI成本高昂,尤其是在训练方面。推理可以优化,但它往往占据账单的主要部分。当AI被视为更广泛的云原生架构的一部分,而不是一个独立的科学项目时,它就会成功。混合方法和成本控制至关重要。
生成式AI项目
生成式AI项目侧重于大型语言模型、图像生成、代码助手和使用Bedrock、OpenAI集成或微调的开源模型构建的自定义智能体。企业正在试验检索增强生成(RAG)以获得更准确的响应和智能体工作流。
风险包括幻觉、数据隐私泄露、知识产权问题和失控的代币成本。许多早期采用者构建了令人印象深刻的演示,但在生产环境中却面临治理和合规性障碍。
教训是明确的。从范围狭窄、高价值的用例入手,并建立强大的提示、评估和人工监督框架。成本由使用驱动,可能会随着数量快速升级。通过缓存、更小的模型和混合本地推理进行优化会有所帮助。当生成式AI被嵌入到现有工作流中,而不是作为独立工具使用时,它能最快地交付投资回报率。
其他项目类型
遗留现代化方面,对大型机或单体应用进行现代化改造,介于迁移和新开发之间。物联网方面,利用云进行设备管理和边缘分析。灾备与备份方面,利用云提高弹性。边缘计算方面,将处理移近用户或设备。主权云方面,专注于合规性的部署以满足数据驻留要求。可持续性方面,通过实施高效架构来减少碳足迹。
每种方法都有定制的风险和成本动态。现代化往往会发现隐藏的依赖关系,IoT需要可靠的连接性,边缘计算引入了延迟考量。跨所有类型的经验教训凸显了多云策略的价值,它能为谈判提供筹码并分散风险,尽管这会增加复杂性。
共同主题
大多数项目失败不是因为技术本身,而是因为规划不足、文化阻力或忽视了运维现实。成本超支通常是由缺乏严格的FinOps纪律造成的。安全和合规问题仍然是持续存在的,需要集成的设计考量。技能短缺阻碍了进展,这使得托管服务尽管存在供应商锁定的担忧,但仍颇具吸引力。
成功的云案例有共同的特征:强有力的高管赞助、迭代交付、跨职能团队和持续优化。将云视为业务转型而非IT项目的组织表现最佳。他们使用业务指标来衡量成果,例如收入影响、客户满意度和上市速度,而不仅仅是正常运行时间或实例数量。
随着容量市场、新云和AI驱动的运维提供新的选项,云格局将继续演变。然而,云的基础知识依然存在。根据你的云成熟度和目标,选择正确的项目类型。彻底了解风险。实事求是地对成本进行建模。借鉴数千个先前的云部署经验教训——这将决定哪些云项目和企业将在云计算的下一个十年中蓬勃发展。