借助 AI 可观测性构建可靠的 AI 系统

作者: CBISMB

责任编辑: 贾西贝

来源: CBISMB

时间: 2026-07-01 17:55

关键字: AI Cloudera 混合数据

浏览: 3

点赞: 0

收藏: 0

作者:Cloudera大中华区技术总监刘隶放

根据麻省理工学院(MIT)2025年报告显示,尽管企业已在生成式AI(GenAI)试点项目上投入了数十亿美元,但仍有95%的企业未获得任何商业回报。AI相关事故和故障是破坏消费者信任、阻碍AI更广泛应用的主要因素之一。Stanford Institute for Human-Centered Artificial Intelligence发布的《2025年AI指数报告》显示,仅在2024年多家机构就报告了233起与人工智能相关的故障。

试想,一家制造企业部署了一套用于预测设备故障的机器学习模型。模型在训练阶段和生产推理初期表现优异,准确率达到95%。然而六个月后,准确率下降到70%,却无人察觉。模型持续输出错误预测,企业仍然依据这些结果做出决策,最终导致大规模设备故障和业务中断。

如果类似情况发生在医疗领域——一个关系到患者生命安全的场景——其造成的影响将更加深远。这并非危言耸听,而是现实世界中屡见不鲜的AI失效案例。正是这些问题不断侵蚀公众对AI的信任,也正是AI可观测性(AI Observability)希望解决的核心挑战。

什么是 AI 可观测性?

AI可观测性是指持续监控、理解和解释AI系统行为。它涵盖三个关键领域:传统软件可观测性(例如指标、日志和追踪)、数据工程(例如数据血缘和质量),以及AI特有的问题,例如漂移、公平性和可解释性。可以将其理解为一个集 AI 监控、调试和治理于一体的综合框架。

传统的可观测性工具本身无法应对AI系统带来的多层复杂性。传统软件是具有确定性的,也就是说,相同的输入会产生相同的输出。如果出现问题,就会看到异常、堆栈跟踪等。然而,AI模型本质上是概率性的,也就是说,相同的输入可能会随着数据或上下文的变化而产生不同的输出。它们需要不同类型的工具来确保模型不会随着时间的推移而悄无声息地退化。

事实上,随着AI从试点项目逐步走向核心业务系统,以及世界模型(World Model)推动AI从以语言理解为主迈向对真实世界的建模、预测和推理,企业对于AI可靠性的关注正在不断提升。这一趋势意味着,模型能力的提升越来越依赖真实、可信且可持续治理的数据,数据治理、数据质量和数据可追溯性正从支撑模型训练的基础能力,逐渐成为保障AI可靠性的关键能力。Cloudera最新发布的《数据就绪指数》中国区调研报告显示,93%的受访企业表示,管理层充分理解并重视支撑AI规模化应用所需的数据基础设施,79%的企业已制定清晰且与业务目标相结合的数据战略。然而,仅有5%的企业认为其数据已实现全面治理。同时,数据访问、数据可见性和数据集成仍是企业推进AI的重要挑战。35%的企业认为复杂的数据访问流程阻碍了数据就绪,27%的企业认为数据可见性不足影响了数据价值释放,而仅有21%的企业表示其数据源已在不同系统和环境之间实现全面集成。这表明,在AI规模化应用过程中,数据治理、数据质量和数据可追溯性等基础能力正变得愈发重要,而这些也正是AI可观测性所关注的核心问题。

AI 模型随时间退化的三种方式

  1. 数据漂移

当输入特征的统计分布偏离模型最初训练时,就会发生数据漂移。例如,一个基于疫情前购买模式训练的银行欺诈检测模型,在购买习惯发生永久性改变后,其表现可能会有所不同。在这种情况下,模型本身并没有改变或损坏,只是其运行范围超出了训练分布的范围。

  1. 概念漂移

概念漂移更具破坏性,因为它更微妙,更难识别。输入分布可能相同,但模型输入和输出之间的关系发生了变化。例如,随着经济状况的变化,信用评分模型在评估申请人资料方面的预测能力可能会下降,从而导致违约风险状况发生根本性改变。

  1. 标签漂移

如果模型输出既用于获取洞察和做出决策,同时又用于生成下一轮训练的数据,则可能会陷入反馈循环,导致模型强化自身的偏见。这在推荐和内容审核中非常危险。

上述故障模式均未产生传统的错误信号,例如基础设施指标异常或错误率上升。

AI 模型退化的实际影响

在缺乏可观测性的情况下部署 AI的风险并非假设。Epic 脓毒症模型(Epic Sepsis Model,ESM)就是临床AI性能退化却未被及时发现的典型案例之一。ESM是Epic公司嵌入电子病历(EHR)系统中的专有算法,已在美国数百家医院部署。

ESM使用2013年至2015年间约40.5万例就诊记录的数据进行训练。在Epic公司的开发和内部测试阶段,该模型的AUC值在0.76至0.83之间。但2021年在密歇根大学医学院进行独立验证时,其AUC值仅为0.63。这意味着该模型漏诊了三分之二的脓毒症患者,同时对18%的住院病例产生了误报。发表在《新英格兰医学杂志人工智能》(NEJM AI)上的一项后续研究表明,在某些情况下,AUC值会进一步下降至0.47。

如果具备AI 可观测性,以下故障模式本可以被发现:

  • 特征漂移 - 该模型未监控自 2013 年以来更新的药物代码、实验室分布和 ICD 编码实践的变化。
  • 性能代理指标退化 - 系统缺乏相应监测机制,未能追踪那些被 ESM 判定为“低风险”但病情实际上持续恶化的患者群体。
  • 子组公平性 - 没有针对不同年龄段或患者人口统计特征随时间推移的性能差异发出警报。
  • 血缘/模式漂移 - Epic 专有的不透明架构意味着上游 EHR 模式的更改无法被感知。

Epic 最终发布了具有梯度提升和本地重训练功能的 V2 版本模型。一个完善的可观测性系统本可以揭示这些显而易见却被忽略的信号。

在中国,随着生成式AI进入规模化应用阶段,监管部门持续强调AI的安全性、透明性和可追溯性。《生成式人工智能服务管理暂行办法》明确提出,生成式人工智能服务提供者应采取有效措施提升服务质量,确保生成内容的准确性和可靠性。在这一背景下,AI可观测性正逐渐从技术团队的运维工具演变为企业构建可信AI体系的重要基础能力。

中国企业的实践同样表明,随着AI应用不断深入核心业务场景,数据治理和数据可信度正在成为支撑AI规模化应用的重要基础。以中创新航科技集团股份有限公司为例,企业通过Cloudera数据平台构建统一的数据管理体系,加强数据治理能力,为数据分析和数字化应用提供支撑。上汽大众则基于Cloudera平台推动企业数据能力建设,提升数据整合与利用效率,为业务创新和智能化转型提供支持。对于正在推进AI应用的企业而言,数据质量、数据治理和数据可追溯性已不再只是IT问题,而是影响AI系统可靠性的重要因素。

AI可观测性的五大支柱

  1. 数据质量监控

数据预处理是机器学习生命周期的第一步。在关注模型性能之前,需要了解用于训练模型的数据是否可靠。这意味着要监控以下方面:

  • 模式异常,例如字段缺失、类型更改等
  • 统计分布变化,例如特征的均值、方差、百分位数偏移
  • 缺失值比例变化,例如空值突然激增等
  • 参照完整性问题,例如外键失效和孤立记录等
  1. 模型性能监控

我们如何知道模型是否仍在执行其训练目标?许多实际系统的挑战在于,真实结果反馈往往延迟到达,甚至根本无法获取。用户无法立即知道模型预测是否正确。以下两种策略可以解决这个问题:

  • 代理指标 - 这些是与模型质量相关的上游信号。例如,推荐模型的点击率、欺诈模型的争议率以及需求预测模型的退货率等。
  • 延迟评估 – 随着真实结果逐步获得,将其进行批量汇总,并持续与历史预测结果进行比较,重新计算模型性能指标。
  1. 可解释性和可理解性

仅仅知道出了问题还不够。理解为什么会出错才是真正的可观测性。现代常用的可解释性技术包括:

  • SHAP (Shapley Additive Explanations) - 为每个特征分配贡献值,以解释单个预测结果是如何形成的。
  • LIME (Local Interpretable Model-agnostic Explanations) - 在局部范围内使用一个简单、可解释的模型来近似复杂模型,从而解释其预测行为。
  • 注意力机制 - 对于基于 Transformer 的模型,能够展示模型在处理过程中重点关注了哪些输入词元(tokens)。
  • IG (Integrated Gradients) – 积分梯度,通过神经网络追踪预测结果,从而确定输入特征的重要性。

在医疗和金融等高度监管的行业中,可解释性是一项监管要求。

  1. 公平性和偏差监测

模型整体上可能具有较高的准确率,但仍可能对特定人群产生系统性的偏差。例如,在医疗领域,如果模型主要基于某一群体的数据进行训练,那么对于数据代表性不足的人群,其预测结果可能并不准确,甚至可能带来危险后果,在某些情况下还可能危及生命。

常见的公平性指标包括人口统计均衡性(各群体的正向预测率相等)、均等机会约束(真阳性率和假阳性率相等)以及个体公平性(相似的个体得到相似的对待)。

  1. 血缘和溯源追踪

模型出现异常预测并非“是否会发生”,而是“何时会发生”。当这种情况出现时,企业必须具备追溯整个链路的能力,包括使用的是哪个模型版本、训练数据来自何处、经历了哪些数据预处理步骤,以及输入特征来源于哪个特征工程流水线等。如果缺乏模型血缘和溯源追踪能力,就无法有效定位和排查问题,更无法找出导致错误预测的根本原因。看不见的问题,就无法修复。

AI可观测性并非一项功能,而是AI系统避免信任危机的基础能力层。随着企业将用于关键决策的模型从试点阶段部署到生产环境,模型“悄无声息失效”的代价,也会从尴尬的问题升级为灾难性的后果。

好消息是,AI 可观测性工具生态已日趋成熟。过去需要数月甚至数年才能从零开始构建的能力,现在只需几周即可利用开源组件完成。相关方法论和最佳实践也比以往更加成熟。相比之下,不实施这些能力所付出的代价要高得多,包括模型性能下降、监管风险增加以及用户信任受损。

真正能够成功运用AI的企业,不会将模型视为一次性交付成果,而是将其视为需要持续维护、监测和理解的关键任务系统。AI可观测性正是帮助企业建立这种持续认知和管理能力的关键,也是构建可信AI系统的重要基础。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。