Presentiamo EvoSkill: un framework che analizza i fallimenti degli agenti e costruisce automaticamente le competenze mancanti, portando a un rapido miglioramento su benchmark difficili e competenze generalizzabili in vari casi d'uso. +12,1% su SealQA +7,3% su OfficeQA (SOTA) +5,3% su BrowseComp tramite trasferimento zero-shot da SealQA Leggi di più qui sotto 🧵
2/ Le abilità degli agenti sono un'astrazione potente per risolvere problemi a lungo termine, ma non possono scalare facilmente. Gli agenti di codifica (Claude Code, Codex, OpenHands) sono potenti risolutori di scopi generali. Tuttavia, in compiti specializzati a lungo termine, gli errori si accumulano senza tracciabilità e l'expertise specifica del dominio è assente. Le abilità sono emerse come un metodo di astrazione potente per migliorare le prestazioni degli agenti in compiti del mondo reale, ma le abilità odierne sono rigorosamente create a mano da esperti. Abbiamo scoperto un modo per automatizzare in modo affidabile lo sviluppo delle abilità.
3/ EvoSkill applica il feedback testuale discendente alla scoperta delle abilità Il ciclo esegue tre agenti specializzati: 1. Esecutore: Tenta un lotto di compiti sotto l'attuale configurazione delle abilità 2. Propositore: Analizza le tracce fallite, incrocia una storia di feedback cumulativa delle proposte precedenti e identifica il divario di capacità con il maggiore impatto 3. Costruttore di Abilità: Materializza la proposta in una cartella di abilità strutturata (SKILL.md + script + riferimenti, ecc… ) Una frontiera di Pareto delle configurazioni top-N governa la selezione, dove solo le abilità che migliorano sulla validazione del set di test sopravvivono.
4/ EvoSkill raggiunge prestazioni rapide utilizzando solo una frazione dei dati di riferimento Abbiamo testato le prestazioni su tre benchmark: 1. OfficeQA (ragionamento su grandi corpora): 60,6% → 67,9% (+7,3%) e raggiungendo SOTA su tutti i sistemi 2. SealQA (QA potenziato dalla ricerca): 26,6% → 38,7% (+12,1%) 3. BrowseComp (ricerca di fatti sul web aperto): 43,5% → 48,8% (+5,3%); trasferimento zero-shot da abilità evolute in SealQA, senza modifiche Il risultato di BrowseComp deriva da abilità evolute su SealQA (riformulazione delle query, verifica multi-sorgente, persistenza della ricerca strutturata) che si trasferiscono zero-shot a un benchmark con domande diverse, distribuzione di difficoltà e condizioni di recupero. Questo suggerisce che l'ottimizzazione a livello di abilità produce capacità generali per il dominio piuttosto che un overfitting specifico per il compito.
5/ L'ottimizzazione del livello di abilità è una migliore astrazione per produrre capacità trasferibili più modulari rispetto a prompt o codice. EvoSkill è completamente open-source. Crediamo che le abilità si trovino in una posizione critica che né i prompt né il codice possono raggiungere: abbastanza strutturate da codificare procedure multi-step con logica di ramificazione/verifica, e abbastanza leggibili affinché uno sviluppatore possa ispezionare, modificare e trasferire a un altro agente su un modello diverso. Stiamo continuando questo lavoro in ambiti più ampi (programmazione, multimodale) in collaborazione con la Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham e @WeiyuanChen01) e siamo aperti alla collaborazione con la comunità di ricerca più ampia.
155