Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Prezentăm EvoSkill: un cadru care analizează eșecurile agenților și construiește automat abilitățile lipsă, conducând la îmbunătățiri rapide la benchmark-uri dificile și la abilități generalizabile în diverse cazuri de utilizare.
+12,1% la SealQA
+7,3% pe OfficeQA (SOTA)
+5,3% pe BrowseComp prin transfer zero-shot din SealQA
Citește mai multe mai jos 🧵

2/ Abilitățile de agent sunt o abstracție puternică pentru a rezolva probleme pe termen lung, dar nu pot scala ușor
Agenții de codare (Claude Code, Codex, OpenHands) sunt rezolvatori puternici de scop general. Totuși, la sarcinile specializate pe termen lung, erorile se acumulează fără trasabilitate, iar expertiza specifică domeniului lipsește.
Abilitățile au apărut ca o metodă puternică de abstracție pentru a îmbunătăți performanța agenților în sarcini reale, însă abilitățile de astăzi sunt exersate manual cu rigurozitate de experți.
Am descoperit o cale către automatizarea fiabilă a dezvoltării abilităților.
3/ EvoSkill aplică coborârea feedback-ului textual la descoperirea abilităților
Bucla rulează trei agenți specializați:
1. Executor: Încearcă un lot de sarcini sub configurația curentă a abilităților
2. Propunător: Analizează urmele eșuate, corelează o istorie cumulativă de feedback a propunerilor anterioare și identifică cel mai mare impact dintre decalajul de capacitate
3. Constructor de abilități: materializează propunerea într-un folder structurat de abilități (SKILL.md + scripturi + referințe etc... )
O frontieră Pareto a configurațiilor top-N guvernează selecția, unde supraviețuiesc doar abilitățile care îmbunătățesc validarea setului de test.

4/ EvoSkill obține performanțe rapide folosind doar o fracțiune din datele benchmark-ului
Am testat performanța în trei benchmark-uri:
1. OfficeQA (raționament pentru corpora mari): 60,6% → 67,9% (+7,3%) și atingerea SOTA în toate sistemele
2. SealQA (QA cu căutare augmentată): 26,6% → 38,7% (+12,1%)
3. BrowseComp (căutare de fapte pe web-ul deschis): 43,5% → 48,8% (+5,3%); transfer zero-shot din abilitățile evoluate de SealQA, fără modificări
Rezultatul BrowseComp a provenit din abilități dezvoltate pe SealQA (reformularea interogărilor, verificarea surselor multiple, persistența căutării structurate) care transferă zero-shot către un benchmark cu întrebări diferite, distribuție a dificultății și condiții de recuperare. Aceasta sugerează că optimizarea la nivel de abilitate produce capabilități generale de domeniu, mai degrabă decât supraajustări specifice sarcinii.

5/ Optimizarea la nivel de abilități este o abstracție mai bună pentru a produce capabilități transferabile mai modulare decât prompturile sau codul
EvoSkill este complet open-source. Credem că abilitățile se află într-un loc critic la care prompturile și codul nu pot ajunge — suficient de structurate pentru a codifica proceduri în mai mulți pași cu logică ramificată/verificare și suficient de lizibile încât un dezvoltator să poată inspecta, edita și transmite unui alt agent pe un alt model.
Continuăm această activitate în domenii mai largi (programare, multimodal) în colaborare cu Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham și @WeiyuanChen01) și suntem deschiși colaborării cu comunitatea de cercetare mai largă.
177
Limită superioară
Clasament
Favorite
