微软开源 AI 评估框架，剑指企业级代理市场

作者： CBISMB

责任编辑：邹大斌

来源： CBISMB

时间： 2026-06-12 12:28

关键字：微软，开源，AI评估框架

点赞： 347

收藏： 44

微软已将其 AI 评估框架开源，该框架能将自然语言需求转化为可执行的测试用例。此举扩大了微软在企业 AI 治理领域的布局，因为目前许多组织在部署生产环境前，仍难以系统性地验证 AI 代理的行为。

该框架名为 ASSERT（自适应规范驱动的评估与回归测试评分系统，Adaptive Spec-driven Scoring for Evaluation and Regression Testing）。微软在宣布该发布的博客文章中表示，ASSERT 能够根据书面规范、产品需求和治理文档，生成评估场景、数据集、指标和评分卡。

微软在博客中写道：“AI 代理的故障往往难以察觉。它们可能会偏离策略，在边缘情况下产生不安全的输出，或者在生产环境中的表现与测试时截然不同。通用的基准测试无法捕捉到这些故障，因为它们并非围绕你的策略、你的代理或你的具体用例构建的。”

通过 ASSERT，微软进入了一个竞争日益激烈的 AI 评估市场。该市场已有的平台包括 LangChain 的 LangSmith、Braintrust、Patronus AI、Galileo、Arize AI 的 Phoenix 以及 Promptfoo，这些工具均旨在帮助企业对大语言模型应用进行基准测试、监控和验证。

行为测试仍处于初级阶段

尽管企业正在快速扩大 AI 代理的部署，但正式的评估实践仍是例外而非常态。

Gartner 高级总监分析师 Anushree Verma 表示：“大多数组织实际上有 99% 的企业在生产前根本没有评估过任何 AI 代理。”

Verma 认为，行业下一个竞争优势将不再取决于推理模型的先进程度，而是取决于组织在部署前模拟和压力测试 AI 代理的效率。

她表示：“在代理式 AI 领域，下一个竞争护城河并不在于推理模型的复杂程度或底层架构，而在于通过代理模拟实现的训练环境的深度和真实性，特别是对于关键任务部署而言。”

Gartner 预计，到 2029 年，超过 75% 在监管行业中设计时未包含代理模拟的特定领域代理，将无法交付价值。

Forrester 认为企业正在向行为评估靠拢，但表示大多数组织尚未将其作为正式的生产准入要求。

Forrester 首席分析师 Biswajeet Mahapatra 表示：“大多数企业仍处于中间阶段，行为评估的应用并不一致，尚未被视为贯穿全生命周期的正式生产准入关卡。”

根据 Forrester 的数据，超过 45% 的组织已在使用 AI 代理，另有 25% 正在试用中。然而，由于治理能力不成熟和运营严谨性有限，许多组织在扩展规模时继续面临挑战。

Mahapatra 表示：“总之，行为评估正变得越来越重要，但对于大多数组织来说，它仍然是临时性的或由工具驱动的，而非在整个生命周期中强制执行的标准化发布关卡。”

AI “裁判”仍需人工监督

微软表示，ASSERT 使用大语言模型作为“裁判”。在微软的内部验证中，模型生成的评估结果与人类评审员的一致性达到 80% 至 90%。

Forrester 的 Mahapatra 指出，这种一致水平有助于自动化大部分 AI 测试，但不应被视为独立的治理机制。

他表示：“80% 到 90% 的与人类评审的一致率表明了高度的一致性，但对于治理或合规性而言，作为独立的控制手段是不够的。”

他建议，企业应采用分层监督模式：即由 AI 大规模地评估 AI，而人类则保留对高风险、受监管或模糊场景的监督权。他还补充道，采购方还应警惕偏见、一致性问题，以及过度依赖同一模型既作为生成器又作为评估器的风险。

开源减少厂商锁定，但未消除治理风险

微软在 MIT 开源许可证下发布了 ASSERT，允许组织检查、修改该框架并将其集成到现有的 AI 开发工作流中。

然而，Forrester 的 Mahapatra 表示，开源框架并不能消除围绕评估中立性的问题。

他表示：“在 MIT 许可证下开源减少了厂商锁定的担忧，并实现了跨模型生态系统的广泛互操作性。然而，这并不能完全消除信任或利益冲突问题，因为原始供应商仍然影响着评估标准、评分逻辑和可接受行为定义的编码方式。”

他的建议是，企业不应依赖单一的评估框架，而应针对多种评估方法验证 AI 系统，并保留内部评估策略的所有权。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

微软开源 AI 评估框架，剑指企业级代理市场

相关推荐

智库专家

解决方案