研究人员为AI编程智能体推出"假设树",改善其长期记忆并持续优化学习成果
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2026-06-22 10:50
浏览: 0
点赞: 0
收藏: 0
AI编程智能体容易将研究过程碎片化——运行实验、产生想法,然后在上下文窗口重置时将这些都遗忘。这不仅浪费Token,还导致模型反复犯同样的错误、撞上同一堵死墙。
但最新研究指出,问题不在模型本身,而在于全局的"树"需要调整。为此,中国人民大学高瓴人工智能学院和微软研究院的数据科学家推出了Arbor——一棵"持久化假设树",帮助智能体在长期研究过程中记住并持续优化学习成果。
一个长期存活的协调器负责管理整棵树的研究策略,而短期执行器则启动隔离的工作树来测试不同的假设。结果返回后,树会更新,随着实验的推进不断收窄和优化。
在真实工程任务的测试中,在同等预算下,这种方法的性能达到了标准AI编程智能体的两倍以上。Info-Tech Research Group研究总监Mahmoud Ramin指出,这是因为"Arbor随时间积累信息,让智能体能够像人类一样,通过学习、适应,最终基于过往所学来构建新的发现。"
Arbor如何生长
Arbor的构建者认为,单纯延长执行时间并不能保证研究进展。真正的挑战在于维护一个状态,将许多独立尝试转化为"累积性假设优化"。
他们进一步指出,进展不应依赖于人类监督者定期介入来指定下一步的逻辑方向或解读过往尝试的含义。要实现真正的自主性,智能体研究框架必须能够在长时间内维持实验、数据、结果和失败之间的关联。
Arbor旨在满足三项系统需求。首先,它必须能够分支:让子树测试多个互相竞争、但都可能合理的假设。与此同时,不受限制的分支会破坏整个框架,因此必须加以控制以保持有序。研究人员称之为"具有一致性的分支"。
其次,基础设施必须将局部执行与全局策略分开。测试单个假设需要短周期任务,如编辑、调试和评估,但这些不应"遮蔽"那棵基于整个运行中收集的证据来做出决策的大树。
最后,系统必须能够区分探索性改进与已验证的改进。这可以防止AI在试错中过拟合,而不是从底层模式中迭代学习。
持久性是核心。这棵树将假设与想法、用于测试它们的代码或配置产物、实验证据(结果、指标)以及提炼的洞见(如"这个数据过滤器有效,但那个学习率调度器没起作用")连接在一起。
项目启动后,短期执行的工作树负责运行代码、记录工作并收集指标。上方长期存活的协调器则充当事实上的研究主管,监控整个过程、更新节点、选择"有前景的叶节点"、修剪或合并分支、传播可复用的经验教训,并决定下一步该探索哪个假设。
Arbor构建者写道:"树因此成为系统的操作化研究状态。它同时是搜索前沿、过往尝试的记忆,以及已验证产物改进的审计轨迹。"
在新数据上超越Codex和Claude
为验证该过程的效果,研究人员在自主优化场景下对Arbor进行了评估:给智能体一个初始研究产物(数据管道、测试框架或训练脚本),要求它通过迭代实验来提升其"保留集性能",且整个过程无需人类干预。保留集性能是机器学习中用于评估模型在未见过的数据上泛化能力的指标。
这套基于树的架构在多项真实研究任务中接受了测试,涵盖模型训练(提升训练方案和超参数的能力)、测试框架工程(升级评估或训练框架的能力)以及数据合成(为训练或评估生成更优质数据的能力)。
最终,Arbor在同等资源预算下的平均保留集性能增益达到了Codex和Claude Code的2.5倍。
研究人员的结论是:维护一棵结构化、持续演化的假设树,比将相同模型作为"无记忆"编码智能体来运行,能带来更显著的性能提升。
Ramin指出,Arbor最具创新性的特性在于它能维持智能体的记忆,并保留来自先前尝试和假设的相关数据。"自主智能体的下一步可能是随时间积累证据。"但他也同时指出,这引发了对大规模稳健研究环境可审计性的担忧:"随着自主智能体在无需人类操作员监督的情况下变得越来越有能力,企业将需要透明度——了解智能体为何以及如何采取某个特定行动或得出某个特定结论。"