目前为止AI Agent还无法自学新技能
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-02-20 09:48
关键字: AI,Agent,大模型
浏览: 1
点赞: 0
收藏: 0
教 AI 代理如何钓鱼获取信息,它就能用数据养活自己。但让 AI 代理自己摸索 figuring things out,它可能会让事情变得更糟。
AI 代理是机器学习模型(例如 Claude Opus 4.6),它们通过 CLI 工具(例如 Claude Code)访问其他软件,并在迭代循环中运行。这些代理可以被指示处理各种任务,其中一些任务可能并未涵盖在它们的训练数据中。
当缺乏适当训练时,可以为软件代理提供新的"技能",这本质上是添加参考材料以赋予特定领域的能力。在此语境中,"技能"指的是指令、元数据以及其他资源(如脚本和模板),代理加载这些资源以获取程序性知识。
例如,可以指导 AI 代理如何处理 PDF,所使用的技能包含 Markdown 文本、代码、库以及有关 API 的参考材料。虽然代理可能从其训练数据中对如何执行此操作有一定了解,但有了更具体的指导后,其表现应该会更好。
然而,根据最近的一项研究《SkillsBench:基准测试代理技能在不同任务中的表现》,让代理自行开发该技能最终只会令人失望。人工智能中的"智能"部分有些被夸大了。
至少在大型语言模型(LLM)的推理阶段——即使用训练好的模型时,而非训练过程中——情况确实如此。
一个新的基准测试
某些形式的机器学习(如深度学习)可以以一种允许神经网络模型提高其在特定领域任务(如电子游戏)中表现的方式应用。
AI 代理的爆发式增长——包括 Anthropic 的 Claude Code、Google 的 Gemini CLI 和 OpenAI 的 Codex CLI——导致了用于增强代理能力的技能的快速发展。技能目录如野草般 proliferating。鉴于 OpenClaw 代理一直在 Moltbook 自动化社区网络中相互教学,现在似乎是时候弄清楚它们在这方面做得有多好了。
迄今为止,还没有一种通用方法可以验证这些技能是否兑现了它们的承诺。因此,一个由 40 名计算机科学家组成的团队着手开发了一项基准测试,以评估代理技能如何在推理过程中增强性能。这些科学家隶属于 Amazon、BenchFlow、ByteDance、Foxconn 和 Zennity 等公司,以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和牛津大学等多所高校。
该研究由代理测量初创公司 BenchFlow 的创始人 Xiangyi Li 领导,他们开发了一项名为 SkillsBench 的测试,并在上述预印本论文中描述了他们的发现。
研究人员在 84 个任务中观察了 7 种代理 - 模型设置,共 7,308 条轨迹——即一个代理在特定技能条件下尝试解决单个任务的过程。测试了三种条件:无技能、策划技能和自我生成技能。
使用策划技能(由人类设计)的代理完成任务的频率平均比无技能代理高 16.2%,尽管存在较大差异。
研究中引用的一个例子是洪水风险分析任务。没有技能的代理未应用适当的统计数学方法,因此通过率仅为 2.9%。而使用策划技能后——该技能告诉代理使用皮尔逊 III 型概率分布并应用适当的美国地质调查局(USGS)标准方法,并指定了其他细节(如 scipy 函数调用和参数解释)——代理的任务通过率提高到了 80%。
当按特定知识领域分析时,策划医疗保健(+51.9 个百分点)和制造业(+41.9 个百分点)技能对 AI 代理的帮助最大,而策划与数学(+6.0 个百分点)和软件工程(+4.5 个百分点)相关的技能带来的增益较小。作者解释说,这是因为需要专业知识的领域在训练数据中往往代表性不足。因此,人类增强在这些领域工作的代理是有意义的。
在此过程中,少即是多——仅包含少数(2-3 个)模块的技能表现优于海量数据转储。
这也适用于模型规模——策划技能帮助较小的模型在任务完成方面越级发挥。Anthropic 的 Claude Haiku 4.5 模型配备技能(27.7%)的表现优于无技能的 Haiku 4.5(11%),也优于无技能的 Claude Opus 4.5(22%)。
当轮到让代理自学技能时,研究作者指示它们:
- 分析任务要求、领域知识和所需的 API;
- 编写 1-5 个模块化技能文档来解决任务;
- 将每个技能保存为 Markdown 文件;
- 然后使用生成的参考材料来解决任务。
尝试这样做的代理表现比根本不尝试还要差。作者指出:"自我生成的技能提供的好处微乎其微或为负(平均 -1.3 个百分点),这表明有效的技能需要人类策划的领域专业知识。"
至少目前而言,AI 革命不会完全自动化——机器仍然需要人类教师来为它们指明正确的方向。