微软开源 AI 评估框架,剑指企业级代理市场

作者: CBISMB

责任编辑: 邹大斌

来源: CBISMB

时间: 2026-06-12 12:28

关键字: 微软 开源 AI评估框架

浏览: 0

点赞: 0

收藏: 0

微软已将其 AI 评估框架开源,该框架能将自然语言需求转化为可执行的测试用例。此举扩大了微软在企业 AI 治理领域的布局,因为目前许多组织在部署生产环境前,仍难以系统性地验证 AI 代理的行为。

该框架名为 ASSERT(自适应规范驱动的评估与回归测试评分系统,Adaptive Spec-driven Scoring for Evaluation and Regression Testing)。微软在宣布该发布的博客文章中表示,ASSERT 能够根据书面规范、产品需求和治理文档,生成评估场景、数据集、指标和评分卡。

微软在博客中写道:“AI 代理的故障往往难以察觉。它们可能会偏离策略,在边缘情况下产生不安全的输出,或者在生产环境中的表现与测试时截然不同。通用的基准测试无法捕捉到这些故障,因为它们并非围绕你的策略、你的代理或你的具体用例构建的。”

通过 ASSERT,微软进入了一个竞争日益激烈的 AI 评估市场。该市场已有的平台包括 LangChain 的 LangSmith、Braintrust、Patronus AI、Galileo、Arize AI 的 Phoenix 以及 Promptfoo,这些工具均旨在帮助企业对大语言模型应用进行基准测试、监控和验证。

行为测试仍处于初级阶段

尽管企业正在快速扩大 AI 代理的部署,但正式的评估实践仍是例外而非常态。

Gartner 高级总监分析师 Anushree Verma 表示:“大多数组织实际上有 99% 的企业在生产前根本没有评估过任何 AI 代理。”

Verma 认为,行业下一个竞争优势将不再取决于推理模型的先进程度,而是取决于组织在部署前模拟和压力测试 AI 代理的效率。

她表示:“在代理式 AI 领域,下一个竞争护城河并不在于推理模型的复杂程度或底层架构,而在于通过代理模拟实现的训练环境的深度和真实性,特别是对于关键任务部署而言。”

Gartner 预计,到 2029 年,超过 75% 在监管行业中设计时未包含代理模拟的特定领域代理,将无法交付价值。

Forrester 认为企业正在向行为评估靠拢,但表示大多数组织尚未将其作为正式的生产准入要求。

Forrester 首席分析师 Biswajeet Mahapatra 表示:“大多数企业仍处于中间阶段,行为评估的应用并不一致,尚未被视为贯穿全生命周期的正式生产准入关卡。”

根据 Forrester 的数据,超过 45% 的组织已在使用 AI 代理,另有 25% 正在试用中。然而,由于治理能力不成熟和运营严谨性有限,许多组织在扩展规模时继续面临挑战。

Mahapatra 表示:“总之,行为评估正变得越来越重要,但对于大多数组织来说,它仍然是临时性的或由工具驱动的,而非在整个生命周期中强制执行的标准化发布关卡。”

AI “裁判”仍需人工监督

微软表示,ASSERT 使用大语言模型作为“裁判”。在微软的内部验证中,模型生成的评估结果与人类评审员的一致性达到 80% 至 90%。

Forrester 的 Mahapatra 指出,这种一致水平有助于自动化大部分 AI 测试,但不应被视为独立的治理机制。

他表示:“80% 到 90% 的与人类评审的一致率表明了高度的一致性,但对于治理或合规性而言,作为独立的控制手段是不够的。”

他建议,企业应采用分层监督模式:即由 AI 大规模地评估 AI,而人类则保留对高风险、受监管或模糊场景的监督权。他还补充道,采购方还应警惕偏见、一致性问题,以及过度依赖同一模型既作为生成器又作为评估器的风险。

开源减少厂商锁定,但未消除治理风险

微软在 MIT 开源许可证 下发布了 ASSERT,允许组织检查、修改该框架并将其集成到现有的 AI 开发工作流中。

然而,Forrester 的 Mahapatra 表示,开源框架并不能消除围绕评估中立性的问题。

他表示:“在 MIT 许可证下开源减少了厂商锁定的担忧,并实现了跨模型生态系统的广泛互操作性。然而,这并不能完全消除信任或利益冲突问题,因为原始供应商仍然影响着评估标准、评分逻辑和可接受行为定义的编码方式。”

他的建议是,企业不应依赖单一的评估框架,而应针对多种评估方法验证 AI 系统,并保留内部评估策略的所有权。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。