Představujeme EvoSkill: framework, který analyzuje selhání agentů a automaticky vytváří chybějící dovednosti, což vede k rychlému zlepšení obtížných benchmarků a zobecnitelných dovedností napříč různými případy použití. +12,1 % na SealQA +7,3 % na OfficeQA (SOTA) +5,3 % na BrowseComp přes zero-shot transfer ze SealQA Více informací níže 🧵
2/ Agentní dovednosti jsou silnou abstrakcí pro řešení dlouhodobých problémů, ale nelze je snadno škálovat Kódovací agenti (Claude Code, Codex, OpenHands) jsou výkonné univerzální řešiče. U specializovaných dlouhodobých úkolů se však chyby hromadí bez sledovatelnosti a chybí odbornost specifická pro danou oblast. Dovednosti se staly silnou abstrakcí pro zlepšení výkonu agentů při skutečných úkolech, ale dnešní dovednosti jsou pečlivě ručně vytvářeny odborníky. Objevili jsme cestu k spolehlivé automatizaci rozvoje dovedností.
3/ EvoSkill aplikuje textovou zpětnou vazbu sestup na objevování dovedností Okruh provozuje tři specializované agenty: 1. Executor: Zkouší sérii úkolů v aktuální konfiguraci dovedností 2. Navrhovatel: Analyzuje neúspěšné stopy, porovnává kumulativní historii zpětné vazby předchozích návrhů a identifikuje mezeru ve schopnostech s největším dopadem 3. Skill Builder: Materializuje návrh do strukturované složky dovedností (SKILL.md + skripty + reference atd.) Výběr řídí Pareto hranice konfigurace s nejvyšším N konfiguracemi, kde přežijí pouze dovednosti, které se zlepší v ověřování testovací množiny.
4/ EvoSkill dosahuje rychlého výkonu s využitím pouze zlomku dat z benchmarku Testovali jsme výkon ve třech benchmarkech: 1. OfficeQA (uvažování nad velkými korpory): 60,6 % → 67,9 % (+7,3 %) a dosažení SOTA napříč všemi systémy 2. SealQA (QA rozšířené vyhledáváním): 26,6 % → 38,7 % (+12,1 %) 3. BrowseComp (vyhledávání faktů na otevřeném webu): 43,5 % → 48,8 % (+5,3 %); Přenos nulových výstřelů ze schopností vyvinutých SealQA, bez úprav Výsledek BrowseComp vycházel ze dovedností vyvinutých na SealQA (reformulace dotazů, ověřování více zdrojů, perzistence strukturovaného vyhledávání), které přenášejí zero-shot do benchmarku s různými otázkami, rozložením obtížnosti a podmínkami vyhledávání. To naznačuje, že optimalizace na úrovni dovedností vytváří schopnosti zaměřené na dané dané oblasti, nikoli na konkrétní úkol.
5/ Optimalizace na úrovni dovedností je lepší abstrakce, která umožňuje vytvářet přenositelné schopnosti modulárnější než prompty nebo kód EvoSkill je plně open-source. Věříme, že dovednosti jsou na kritickém místě, kam prompty a kód nedosáhnou – dostatečně strukturované, aby mohly kódovat vícestupňové postupy s větvenou logikou/ověřováním, a zároveň dostatečně čitelné, aby je vývojář mohl zkontrolovat, upravovat a předat jinému agentovi na jiném modelu. V této práci pokračujeme napříč širšími oblastmi (kódování, multimodální programování) ve spolupráci s Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham a @WeiyuanChen01) a jsme otevřeni spolupráci s širší výzkumnou komunitou.
163