目前为止AI Agent还无法自学新技能

作者： CBISMB

责任编辑：邹大斌

来源： CBISMB

时间： 2026-02-20 09:48

关键字： AI,Agent,大模型

点赞： 0

收藏： 0

教 AI 代理如何钓鱼获取信息，它就能用数据养活自己。但让 AI 代理自己摸索 figuring things out，它可能会让事情变得更糟。

AI 代理是机器学习模型（例如 Claude Opus 4.6），它们通过 CLI 工具（例如 Claude Code）访问其他软件，并在迭代循环中运行。这些代理可以被指示处理各种任务，其中一些任务可能并未涵盖在它们的训练数据中。

当缺乏适当训练时，可以为软件代理提供新的"技能"，这本质上是添加参考材料以赋予特定领域的能力。在此语境中，"技能"指的是指令、元数据以及其他资源（如脚本和模板），代理加载这些资源以获取程序性知识。

例如，可以指导 AI 代理如何处理 PDF，所使用的技能包含 Markdown 文本、代码、库以及有关 API 的参考材料。虽然代理可能从其训练数据中对如何执行此操作有一定了解，但有了更具体的指导后，其表现应该会更好。

然而，根据最近的一项研究《SkillsBench：基准测试代理技能在不同任务中的表现》，让代理自行开发该技能最终只会令人失望。人工智能中的"智能"部分有些被夸大了。

至少在大型语言模型（LLM）的推理阶段——即使用训练好的模型时，而非训练过程中——情况确实如此。

一个新的基准测试

某些形式的机器学习（如深度学习）可以以一种允许神经网络模型提高其在特定领域任务（如电子游戏）中表现的方式应用。

AI 代理的爆发式增长——包括 Anthropic 的 Claude Code、Google 的 Gemini CLI 和 OpenAI 的 Codex CLI——导致了用于增强代理能力的技能的快速发展。技能目录如野草般 proliferating。鉴于 OpenClaw 代理一直在 Moltbook 自动化社区网络中相互教学，现在似乎是时候弄清楚它们在这方面做得有多好了。

迄今为止，还没有一种通用方法可以验证这些技能是否兑现了它们的承诺。因此，一个由 40 名计算机科学家组成的团队着手开发了一项基准测试，以评估代理技能如何在推理过程中增强性能。这些科学家隶属于 Amazon、BenchFlow、ByteDance、Foxconn 和 Zennity 等公司，以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和牛津大学等多所高校。

该研究由代理测量初创公司 BenchFlow 的创始人 Xiangyi Li 领导，他们开发了一项名为 SkillsBench 的测试，并在上述预印本论文中描述了他们的发现。

研究人员在 84 个任务中观察了 7 种代理 - 模型设置，共 7,308 条轨迹——即一个代理在特定技能条件下尝试解决单个任务的过程。测试了三种条件：无技能、策划技能和自我生成技能。

使用策划技能（由人类设计）的代理完成任务的频率平均比无技能代理高 16.2%，尽管存在较大差异。

研究中引用的一个例子是洪水风险分析任务。没有技能的代理未应用适当的统计数学方法，因此通过率仅为 2.9%。而使用策划技能后——该技能告诉代理使用皮尔逊 III 型概率分布并应用适当的美国地质调查局（USGS）标准方法，并指定了其他细节（如 scipy 函数调用和参数解释）——代理的任务通过率提高到了 80%。

当按特定知识领域分析时，策划医疗保健（+51.9 个百分点）和制造业（+41.9 个百分点）技能对 AI 代理的帮助最大，而策划与数学（+6.0 个百分点）和软件工程（+4.5 个百分点）相关的技能带来的增益较小。作者解释说，这是因为需要专业知识的领域在训练数据中往往代表性不足。因此，人类增强在这些领域工作的代理是有意义的。

在此过程中，少即是多——仅包含少数（2-3 个）模块的技能表现优于海量数据转储。

这也适用于模型规模——策划技能帮助较小的模型在任务完成方面越级发挥。Anthropic 的 Claude Haiku 4.5 模型配备技能（27.7%）的表现优于无技能的 Haiku 4.5（11%），也优于无技能的 Claude Opus 4.5（22%）。

当轮到让代理自学技能时，研究作者指示它们：

分析任务要求、领域知识和所需的 API；
编写 1-5 个模块化技能文档来解决任务；
将每个技能保存为 Markdown 文件；
然后使用生成的参考材料来解决任务。

尝试这样做的代理表现比根本不尝试还要差。作者指出："自我生成的技能提供的好处微乎其微或为负（平均 -1.3 个百分点），这表明有效的技能需要人类策划的领域专业知识。"

至少目前而言，AI 革命不会完全自动化——机器仍然需要人类教师来为它们指明正确的方向。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

目前为止AI Agent还无法自学新技能

相关推荐

智库专家

解决方案