热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一个自我进化的框架,用于发现和完善代理技能。
我今天看到的大多数代理技能都是手工制作的或设计不佳的。
用于构建技能的多代理系统看起来很有前景。
本文介绍了EvoSkill,一个自我进化的框架,通过迭代失败分析自动发现和完善代理技能。
EvoSkill分析执行失败,提出新的技能或对现有技能进行编辑,并将其转化为结构化的、可重用的技能文件夹。
三个协作代理驱动整个过程。
一个执行者负责运行任务,一个提议者负责诊断失败,一个技能构建者负责创建具体的技能文件夹。
一个帕累托前沿控制选择,仅保留那些在保持模型不变的情况下提高验证性能的技能。
在OfficeQA上,EvoSkill将Claude Code与Opus 4.5的准确率从60.6%提高到67.9%。在SealQA上,它带来了12.1%的提升。在SealQA上进化的技能在BrowseComp上零-shot转移,准确率提高了5.3%,无需修改。
我将继续密切关注这一研究方向。我认为这非常重要。
论文:
在我们的学院学习构建有效的AI代理:

热门
排行
收藏
