Hva om agenten din kunne lære seg selv? Selvbevisst AI-forsker @salahalzubi401 sin nye forskningsartikkel om EvoSkill genererer automatisk høykvalitetsferdigheter for Claude Code, OpenHands og mer. Fyll inn en hvilken som helst benchmark, og den GEPA-lignende algoritmen gjør agenten din automatisk dyktig i de tilhørende oppgavene.
elvis
elvis11. mars, 21:44
Et selvutviklende rammeverk for å oppdage og forbedre agentferdigheter. De fleste agentferdigheter jeg ser i dag er håndlagde eller dårlig designet av en agent. Multiagent-systemer for å bygge ferdigheter ser lovende ut. Denne artikkelen introduserer EvoSkill, et selvutviklende rammeverk som automatisk oppdager og forbedrer agentferdigheter gjennom iterativ feilanalyse. EvoSkill analyserer utførelsesfeil, foreslår nye ferdigheter eller endringer i eksisterende, og materialiserer dem i strukturerte, gjenbrukbare ferdighetsmapper. Tre samarbeidende agenter driver hele prosessen. En Utøver som kjører oppgaver, en Proposer som diagnostiserer feil, og en Ferdighetsbygger som lager konkrete ferdighetsmapper. En Pareto-grense styrer utvelgelsen, og beholder kun ferdigheter som forbedrer hold-out-valideringsytelsen, samtidig som den underliggende modellen holdes frosset. På OfficeQA forbedrer EvoSkill Claude Code med Opus 4.5 fra 60,6 % til 67,9 % nøyaktig treff-nøyaktighet. På SealQA gir det en økning på 12,1 %. Ferdigheter utviklet seg på SealQA transfer zero-shot til BrowseComp, og forbedret nøyaktigheten med 5,3 % uten endringer. Jeg vil fortsette å følge denne forskningsretningen nøye. Jeg synes det er veldig viktig. Artikkel: Lær å bygge effektive AI-agenter i vår akademi:
@salahalzubi401 representerer @salahalzubi401
522